Визначення тексту, VR та безпілотники: як комп'ютерний зір позбавляє рутини, але загрожує даними

З чого все починалося

Щоб навчити комп'ютер «бачити», спочатку потрібний сенсор, який читає

інформацію з навколишнього простору та перетворює її на зображення. Другий компонент – програма обробки цього зображення.

Друкований текст виявився ідеальним випробувальнимстендом для першого покоління алгоритмів — достатньо було збільшити контраст зображення та знайти переходи з білого до чорного та назад. Це дозволяло виявити межі літер та його форму, після чого можна було визначити кожну літеру, порівнюючи її із заздалегідь підготовленими зразками.

Створення бібліотек з відкритим кодом, таких якOpenCV, відчинило двері для експериментів із довільними зображеннями. За формою виявлених граней об'єкта комп'ютер міг зрозуміти, де зображено людину, око людини, птицю, автомобіль — системи комп'ютерного зору вийшли за межі розпізнавання тексту.

З'явилися камери стеження, що подавали сигнал,якщо у кадрі з'являлася людина. Програми з комп'ютерним зором оселилися в мобільних телефонах: ідентифікація обличчя, відбиток пальця, сітківці ока або сканер QR-кодів давно стали звичними функціями. Причому зараз за розуміння того, що зображено відповідає не примітивний алгоритм порівняння зі зразком, а нейромережа, навчена за технологією машинного навчання.

Чим зір комп'ютера кращий за людський

Перша і очевидна перевага CV - набагатоширший діапазон сприйняття. Комп'ютерний зір, на відміну нашого погляду, не обмежена видимим спектром. Головне, щоб сенсор умів створювати зображення для подальшої обробки, а що є джерелом цього зображення – тепловізор, лідар, відеокамера, рентгенівська установка, апарат УЗД чи МРТ – не має значення.

Друга перевага систем комп'ютерного зорувідсутність людського фактора. Вони не втомлюються, не відволікаються, не хочуть спати, мають огляд 360 градусів. Потрібну інформацію можна вимагати з архіву для перегляду.

Крім того, у процесі навчання нейронна мережаможе виявити зв'язки, не очевидні людського сприйняття. Наприклад, система аналізує зображення внутрішніх органів людини і формує уявлення про те, як вони мають виглядати. Так можна визначити як тип органу, а й ступінь відхилення від норми — зокрема виявити пухлина, яка діагностується іншими методами.

Як комп'ютерний зір змінює наш погляд на світ

Технології комп'ютерного зору вже зараззастосовуються в медицині для виявлення ракових пухлин, у промисловості для контролю збирання на стадії виробництва та в автомобілях як додаткові системи безпеки. Ми не замислюючись, користуємося комп'ютерним зором, щоб розблокувати пристрій, і звично лаємося на камери на дорогах, які виписують штрафи.

Комп'ютерний зір змінює навіть сприйняття спорту— системи автоматичного стеження керують камерами трансляцій, допомагають розбирати спірні моменти — чи м'яч залишився в межах тенісного корту, чи перетнув лінію воріт, чи було порушення або положення «поза грою».

За допомогою комп'ютерного зору ведеться облікзавантаженості автотранспорту. Система контролює скільки задніх коліс у фури стикаються з дорожнім покриттям, наскільки деформовані при цьому шини, і розраховує масу корисного вантажу автомобіля. Залишається лише розпізнати номерний знак та внести запис до бази даних.

Комп'ютерний зір незамінний і в складськомуобліку. Це працює так: сканер зчитує штрихкод на коробці з товаром та вносить інформацію до бази даних. Причому необов'язково сканувати кожну коробку набагато зручніше вважати QR-коди відразу з усіх коробок на палеті.

Продовжують розвиватися та системи обробкитекстів — у сучасних системах документообігу скан договору чи накладної завантажується як PDF-документа, але завдяки комп'ютерному зору у ньому можна здійснити пошук, класифікувати чи скопіювати текст.

Окремий напрямок - інтеграція комп'ютерногозору та космічних технологій. У сільському господарстві за допомогою супутників контролюють стан урожаю, МНС відстежує виникнення пожеж та повеней. Корпорація Google за допомогою комп'ютерного зору на супутникових знімках ідентифікувала і нанесла на карту всі будівлі в Африці - від землянок, викопаних на пагорбі на березі річки, до багатоповерхівок.

Технології комп'ютерного зору потрібні длястворення доповненої реальності - саме завдяки розпізнаванню опорних точок вдається коректно вбудовувати синтезоване зображення в кадр і поєднувати реальний і віртуальний простір. Наприклад, у додатку для віддаленої примірки ювелірних прикрас камера смартфона зчитує положення руки користувача, будує модель і додає на неї обране кільце. 3D-маски в Instagram, що стали вже звичними, теж один з проявів комп'ютерного зору в поєднанні з VR/AR.

Набирають популярність і вузькоспеціалізованіДодатки, які по фотографії листа видають інформацію про дерево, допомагають грибникам з'ясувати, чи їстівний їм дістався трофей, а колекціонерам - оперативно отримати інформацію про монету, просто навівши на неї камеру смартфона.

Які недоліки є у систем комп'ютерного зору

Системи комп'ютерного зору дуже чутливідо апаратних ресурсів. Чим вище роздільна здатність зовнішніх сенсорів і більше обчислювальних потужностей — тим надійніший і точніший процес розпізнавання. Це простежується на прикладі технологій розпізнавання облич для розблокування мобільних телефонів. Десять років тому для цього була потрібна хороша освітленість і розміщення камери на строго певній відстані від обличчя. Сьогодні телефон дізнається господаря навіть уночі.

Інший недолік CV, який можна віднести до"Хворобам зростання", - помилки в класифікації подібних об'єктів. Наприклад, людина легко відрізнити мавпу від кенгуру, а ящірку від крокодила, а для комп'ютера це не так просто при схожих позах та певних ракурсах зйомки.

Ще одне обмеження комп'ютерного зорупроцес прийняття рішень. Сучасний автомобіль преміум-класу може бачити далі, ніж людина: він не має сліпих зон, не заважає темрява вночі або туман, він може виявити наближення об'єкта з його теплового випромінювання. Але в реальній ситуації на дорозі людина все ще краще приймає рішення з урахуванням обстановки, що склалася. І для того, щоб підвищити безпеку, автопілоту доводиться стежити не лише за дорожньою ситуацією, а й за власним водієм.

У світі машинного зору ідентифікація - один збазових процесів, що відразу викликає безліч питань, пов'язаних із приватністю та персональними даними. Тому потрібно враховувати вимоги законодавства та етичні обмеження, пов'язані з самим фактом оцінки комп'ютером дій людини та можливими наслідками рішень, прийнятих алгоритмами. Тема помилково виписаних штрафів — наочне підтвердження цього.

Що чекає на нас у майбутньому

Одна з найпоширеніших страшилок,пов'язаних з комп'ютерного зору — образ «цифрового концтабору», тотального контролю, від якого неможливо втекти. Системи комп'ютерного зору майбутнього зможуть контролювати не тільки переміщення, а й наміри: хмуришся — значить сумний, озираєшся — значить щось думаєш. Фантастичні блокбастери-антиутопії теж додають фобій та негативу в очікуванні таких варіантів майбутнього.

Сценаристи люблять полоскотати нерви, лякаючи новимитехнологіями. Насправді ж світ і сьогодні «прозорий» для технологій контролю. А ось плюси від впровадження комп'ютерного зору дозволять у майбутньому не дбати про багато рутинних речей. Наприклад, ми, швидше за все, забудемо про каси в супермаркетах — система сама ідентифікує вас на вході, проконтролює, що саме ви кладете в кошик, порахує вартість на виході та сама спише гроші з рахунку. Завдяки комп'ютерному зору можна буде оперативно перенаправляти транспортні потоки, щоб уникнути пробок на дорогах, а рух загалом стане безпечнішим.

Комп'ютерний зір - технологія майбутнього,яка вже зараз впливає на наше життя. Вона глибоко інтегрована у сучасний світ, і ми користуємося її можливостями щодня. Але ми ще на самому початку шляху, де має бути не тільки вирішити технічні питання підвищення обчислювальних потужностей, а й навчиться жити у новій реальності. Для цього доведеться перемогти фобії та вигадати законодавство, яке не дасть технології вийти з-під контролю.

Читати далі:

Подивіться на фотографії двох галактик, що зливаються, зроблені з різницею в 9 років

Ілон Маск: корабель Starship може підняти в 1000 разів більше вантажу, ніж інші ракети

Темна матерія звертає звичайні частинки та заповнює Всесвіт