Аніма Анандкумар, NVIDIA - про технології навчання ІІ, його адаптивності і проблеми

Аніма Анандкумар - професор в Каліфорнійському технологічному інституті і директор з досліджень в

області машинного навчання в NVIDIA. Раніше була головним науковим співробітником Amazon Web Services. Отримала кілька нагород, серед яких - стипендія імені Альфреда П. Слоана, премія за кар'єру NSF, нагороди молодих дослідників від Міністерства оборони і стипендії викладачів від Microsoft, Google і Adobe. Є членом експертної ради Всесвітнього економічного форуму. Захоплена розробкою алгоритмів ІІ і їх застосуванням в міждисциплінарних додатках. Її дослідження зосереджені на неконтрольованому штучному інтелекті, оптимізації і тензорних методах.

«Ситуація з коронавірусів показує, що люди набагато випереджають ІІ»

Як почалася революція штучного інтелекту? Уже несколько десятилетий появляются интересные відкриття в цій галузі. Для людини немає нічого буденніше, ніж розпізнавати зображення на екрані. Але для ІІ це вкрай важка задача, тому що він не народжується з уже заданими здібностями до цього. Перед ученими стояло завдання "навчити" машинний мозок ідентифікувати побачене. На самому початку досліджень один з професорів Стенфорда почав підписувати зображення, щоб комп'ютера було легше їх класифікувати. Саме марковані картинки стали початком революції глибинного нейронного навчання.

Вихід на новий рівень розробки ІІ почався з закладання в програму мільярдів параметрів, які дозволять йому дізнатися конкретний об'єкт. Складність завдання в тому, щоб глибинна нейросетьв умовах інваріантності розпізнала, наприклад, собаку незалежно від відмінності поз, забарвлення, породи і так далі. Навчання штучного розуму означає, що під час процесингу зображення в ієрархічному порядку розглядається цілий ряд шарів кадру. Так, на базовому рівні видно лише лінії під різними кутами один до одного. Потім вони з'єднуються і складають більш складні форми, припустимо, морду собаки в кольорі. Помітні вже форма, колір і інші окремі характеристики. Саме етап, коли ми навчилися поділяти процес на частини, на рівні, став величезним кроком вперед.

Для подальшого розвитку потрібні не тільки глибинні нейронні мережі, а й величезні обчислювальні потужності. Протягом останніх десятиліть ми бачилиуповільнення зростання можливостей наших комп'ютерів, коли більше не збільшується в два рази швидкість однопоточних обчислень. Але при цьому зараз ми можемо паралельно проводити розрахунок величезних за обсягом та складністю операцій. Сучасний рівень розвитку глибинних мереж привів до того, що зараз в них можуть відбуватися мільярди процесів одночасно. І мета їх лише одна: визначити, що ж зображено на фотографії. Ця процедура здійснюється за допомогою матриксних мультиплікаційних процесів і інших технологій. І тут, звичайно, все залежить від потужності відеокарт.

До 2014 року глибинні нейромережі змогли краще людей розпізнавати зображення, а значить, сьогодні вони стали ще більш досконалими. Це сталося завдяки об'єднанню трьох чинників:можливостей маркованих даних, гнучкості існуючих алгоритмів глибинних нейромереж і величезних можливостей комп'ютерів. Є багато прекрасних прикладів того, які висоти вже брав машинний мозок, наприклад, глибинне навчання з підкріпленням допомогло ІІ перемогти людини в грі го. Цей гравець був одним з кращих, але він програв. Крім того, зараз штучний інтелект здатний генерувати фотографії людей настільки реалістичні, що ця технологія вже пройшла тест Тьюринга. Людина вже не може зрозуміти, яке зображення реально, а яке було створено машиною. Це чудові приклади успіхів ІІ, але, напевно, на цьому прогрес не зупиниться.

Однак є цілий ряд прикладів, де ІІ не виправдав очікувань. Припустимо, ситуації, де ключовим аспектомє безпека. Уже кілька десятиліть ми бачимо посилення технологій, які використовуються в автономних автомобілях, але, на жаль, їх недостатнє досконалість все одно призводить до аварій. Також машина не може замінити людину в тому, що стосується створення контенту і його редагування. І нинішня ситуація з коронавірусів показує, що люди набагато випереджають ІІ.

Чим ми будемо займатися в майбутньому, розвиваючи штучний інтелект і технології глибинних нейромереж? На даний момент активно розвиваєтьсяробототехніка: наприклад, в однієї компанії є робот, який вміє робити сальто назад. Але його не можна навіть порівняти з собакою. Цей робот незграбний, постійно падає, але тварина, падаючи, вчиться, як наступного разу зробити той чи інший рух, не впавши. А робот на це не здатний, він не навчений. Тут виникає питання, чи можливо зробити ІІ, який буде готовий самостійно навчатися і вирішувати проблеми?

«Розуміння алгоритмів знаходиться за межами наших можливостей»

Алгоритм штучного інтелекту - це сукупність заздалегідь закладеної інформації і дуже чіткого завдання. Ми визначаємо, які дані і попередньозадані параметри повинні використовуватися, а також як реалізувати процес прийняття рішень. Для створення і підтримки алгоритму ІІ потрібні величезні обсяги даних. Це складно, тому що даних стає все більше і більше, наприклад, при розпізнаванні відеопотоку кількість розпізнаваних кадрів дуже велике. Проблематично проводити маркування, тому що люди присвоюють назви мільйонів відеороликів, а значить, і об'єктам на екрані.

Що стосується заздалегідь закладаються параметрів, то знову доводиться стикатися з тим, що все робиться вручну. Зараз легко обдурити ІІ.Наприклад, якщо у нас є знак «Стоп» і ми помістимо на нього кілька блоків, то штучний інтелект вже не зрозуміє його значення. І автомобіль, що рухається без допомоги водія, вже не розпізнає цей знак як заклик зупинитися. Наш, людський інтелект зовсім інший. Може бути, ми зможемо перенести образ нашого мислення в комп'ютер, але поки ми цього не змогли зробити. Що стосується вказівок, наказів і інструкцій, то доводиться діяти дуже просто: ми даємо одну задачу - розпізнати, що зображено на цій картинці. А що стосується параметрів оцінки успіху або неефективності роботи алгоритму, то тут ми дуже обмежені.

Ми іноді не можемо зрозуміти, наскільки успішний діючий алгоритм, тому що це знаходиться за межами нашого розуміння. Крім того, є кілька проблем, пов'язаних зтим, що дані, які у нас є, в основному стосуються чоловіків зі світлою шкірою. З цієї причини ІІ неправильно визначає темношкірих жінок. Є й інші помилки в розпізнаванні осіб. Проблема виникає через те, що оцінка ефективності штучного інтелекту вкрай обмежена. Не потрібно забувати про парадигму, в якій мовиться, що нам потрібні величезні обсяги даних, і всі вони повинні бути марковані. Заздалегідь закладені параметри повинні бути зрозумілі алгоритму, а саме завдання повинно бути простим і логічним.

Спочатку потрібно домогтися відсутності необхідності маркувати дані. ІІ повинен працювати без допомоги людини, щобкомп'ютер сам знаходив концепти, формував ідеї, розумів особливості того чи іншого зображення. Чи складно це? Так, дуже, але ж люди це роблять, причому з легкістю. Що стосується заздалегідь закладаються даних, тут потрібно створювати дуже чіткі образи, показувати, що є що з тих даних, які ми «скармливаем» системі. І тут можна багато чому навчитися у мозку людини. Ну і, нарешті, завдання, які ми даємо алгоритму. ІІ повинен бути більш адаптивним, тому що зараз ми кожен раз з нуля навчаємо нашу систему, а потрібно зробити так, щоб вона могла адаптуватися і змінюватися, виконувати різні завдання. Так що зараз ми тренуємося, щоб зробити штучний інтелект гнучким.

Як зрозуміти, що перед нами кішка?

Ми дізнаємося кішку, навіть якщо це розмита картинка, тому що наш мозок постійно намагається розмитому зображенню надати певну різкість для подальшого аналізу. Є багато теорій, і одна з найвідомішихкаже, що ми не тільки дивимося на якийсь об'єкт, а й одночасно мозок підбирає варіанти того, чим він може бути. Цим же займаються і глибинні нейронні мережі. У нас є апріорні дані про те, як повинна виглядати кішка. І ми намагаємося зіставляти цю картинку з уявленням про те, як виглядають коти. Це важливо розуміти при розробці, щоб було сталість ідентифікації зображень.

Як нам прийти до стабільності в ідентифікації об'єктів штучними мережами? Природним чином це відбувається черезповторюваності. Ми беремо якусь зовнішню картинку і дивимося на неї, а сигнал надходить в мозок. Є також і спадна зворотний зв'язок. Використовуючи інформацію про те, як виглядає кішка, мозок формує певне сприйняття. Як зробити так, щоб ці складні процеси нашого мозку реалізовувалися ІІ? Необхідно поєднати хороший класифікатор для поняття «кішка», який будуть «згодовувати» нейронної мережі, з відмінним генератором цих зображень. Одночасно відбуватиметься класифікація поняття і навчання нейронної мережі. Буде отримана зворотний зв'язок для стандартних нейронних мереж. І цей зв'язок дасть можливість отримувати генеративную зворотний зв'язок. Іншими словами, при спробі обробити вхідний сигнал людина намагається маркувати зображення. І тоді виникає зворотний зв'язок, коли ми намагаємося згенерувати сприйняття на основі того, що бачимо. Ці два процеси повинні бути взаємопов'язані.

Стандартна нейросеть, як правило, не може розпізнати нечіткі картинки, але наша модель завдяки механізму зворотного зв'язку робить образи більш чіткими і потім зможе їх розпізнати. Ми бачимо, що така схема довела своюдієвість, тому можемо надихатися тим, як бачить людина, при створенні комп'ютерного зору. На основі вже розроблених моделей можна створювати більш досконалі алгоритми, які будуть відрізнятися високою продуктивністю. Але також потрібна ефективна інфраструктура, яка буде обробляти процеси ІІ у великому масштабі. Ми працюємо з алгоритмами не окремо. Ви берете якісь дані і їх потрібно візуалізувати, що є дуже складним процесом. Тому потрібен потужний процесор, здатний обробляти значні обсяги інформації. Крім того, ми використовуємо певні фреймворки (CLARA) для різних додатків, в тому числі і для медицини. Зараз з урахуванням пандемії COVID-19 з'явилася потреба в тому, щоб тренувати моделі машинного навчання у великих масштабах. Метою цього є розробка вакцин і ліків від вірусу. Інструмент CLARA може працювати з об'ємними структурами і різними алгоритмами, будучи по суті координатором їх роботи.

Ще одна можливість навчання ІІ полягає у використанні не реальних, а стимульованих даних. У нас є ряд роботів, які можуть статишеф-кухарями на наших кухнях. Такі машини здатні відкрити і закрити ящик, взяти якийсь предмет, щось змішати або збити. Ці прості для людини операції дуже складні для роботів, так як навчити їх цьому проблематично. Але за допомогою процесів моделювання ми зможемо відкривати неіснуючі, запрограмовані ящики. І таким чином робот вчиться подібним операціям. Програми дозволяють робити це паралельно і в великих масштабах, що дозволяє подолати обмеження, які накладають на нас дані. Але така система навчання означає, що потрібно розробити дуже складні алгоритми, які переведуть машину зі світу симуляції в реальний світ, відкриваючи абсолютно нові, захоплюючі перспективи роботи з ІІ. Є програма, яка дозволяє додавати симуляцію до тих моделям, коли штучний інтелект навчається на реальних даних. Це ще один приклад того, що у нас є хороша інфраструктура і ми можемо працювати з дуже складними проблемами. З'явилася можливість створювати нові алгоритми і моделі, а також тестувати їх набагато швидше, ніж це робилося раніше.

Майбутнє ІІ має бути всеосяжним і знаходити своє втілення в різних сферах, щоб у нас був високоадаптівний, постійно навчається інструмент. Для цього зараз потрібно переосмислити підходи доглибокому навчанню. Самостійне навчання є ключем до успіху, тому потрібно знаходити способи вбудовувати програми неконтрольованого навчання в системи. І якщо говорити про згортальних нейросетях, система зворотного зв'язку робить їх більш стійким. А це перший крок до того, щоб створити реальну базу для ІІ нового покоління.

Читайте також:

Шукач скарбів знайшов скарб в Шотландії, якому 3000 років

Метеорний потік Персеїди - 2020: де його побачити, куди дивитися і як зробити фото

Подивіться на 3D-карту Всесвіту: її складали 20 років і вона вже здивувала вчених