Сам собі вчитель: як алгоритми навчаються без допомоги людини і роблять безпілотники кращими

Безпілотні транспортні засоби, цифрові двійники та автоматизоване управління телекомунікаціями – це не

До нього звертаються вчені, які займаються прикладним штучним інтелектом та дослідженнями у сфері навчання з підкріпленням.Компанія Hitech поговорила про майбутнє технологій з Олегом Свідченком, Олександром Гришиним і Олексієм Шпільманом, лауреатами щорічної премії імені Сегаловича.

Як ІІ навчається без наставника

Навчання з підкріпленням (Reinforcement learning,RL) передбачає, що ІІ сам взаємодіє з певним середовищем - наприклад, дошкою для гри Go або зовнішнім світом, якщо робот по ньому пересувається. Пристрої потрібно виявляти загальні патерни та орієнтуватися на них під час виконання завдань. А при навчанні з «учителем» потрібна людина, яка має вказувати правильну дію, на яких ІІ тренуватиметься.

«Суть RL у тому, що машина чи, як ми говоримо,агент, який навчається в режимі постійної практики, — зазначає Олег Свідченко, лауреат наукової премії Яндекса. - ІІ поміщають у певні умови і "говорять" - дій. Це схоже на ситуацію, коли миша вирушає на пошуки сиру у лабіринті. Зробивши поворот не в той бік, тварина стикається зі стіною, повертається назад, пробує знову і таке інше. У разі навчання із підкріпленням правильні кроки заохочуються. Чим правильніша чинна дія, тим більше балів отримає ІІ. Якщо вибір виявився невірним, то агент втрачає очки. Під час навчання машина запам'ятовує, яка комбінація дій була вигіднішою, і наступного разу скористається саме нею».

Самостійний пошук рішення дозволяє агентурано чи пізно перевершити людину. Це показав, наприклад, алгоритм MuZero від DeepMind, який навчився грати в десятки старих відеоігор Atari, шахи та настільні ігри типу Go. Для його створення задіяли попередні розробки компанії: наприклад, AlphaGo, завдяки якому вдалося обіграти чемпіона Go Лі-Седола, та AlphaZero, який застосовується у шахах. Удосконалений алгоритм отримує більше інформації з меншої кількості даних — тепер йому потрібно вдвічі менше тренувальних кроків.

Алгоритми навчання з підкріпленням можутьнагоді в різних галузях. Наприклад, у медицині — в організацію персоналізованого динамічного лікування, в індустрії розваг — для автоматичного тестування комп'ютерних ігор чи авіації — для автономного управління стратостатом.

В яких галузях ІІ прийде на допомогу людям

Цифровізація рітейлу: повністю автоматизовані магазини

Першими машинне навчання впроваджують у галузях,де налагоджений процес збору та оцифрування великих масивів даних. Наприклад, у рітейлі вся інформація проходить через касові апарати, а отже, ІІ є з чим працювати. За словами Олексія Шпільмана, використання алгоритмів ІІ дозволить повсюдно створити автоматизовані магазини, де всі процеси відбуватимуться без участі людини.

Такий формат ще у 2016 році почала тестуватикомпанія Amazon. Покупець бере візок, набирає в нього товари і просто йде - гроші за покупку списуються з картки автоматично. У Росії схожий проект розробила «Абетка Смаку».

«Покупець бере візок, набирає в нього товари і просто йде - гроші за покупку списуються з картки автоматично»

Управління телекомунікаціями: виявлення несправностей мережі 

Завдяки навчанню із підкріпленнямтехнологічні прориви можуть статися в управлінні різноманітними мережами - телекомунікаціях, тепломережах, електроенергетиці. Багато процесів тут досить просто роботизувати, оскільки немає великої взаємодії з людьми.

Автоматизація призведе до створення систем, які будуть приймати більш якісні рішення та оптимізувати споживання енергії.Наприклад, алгоритми RL використовуються для розробки контролера HVAC (абревіатура від HVACЗ англ. Опалення, вентиляція та кондиціонування – це система контролю температури та вентиляції приміщення.Використання цієї технології на підприємствах допоможе як економити споживання енергії, так і скоротити викиди вуглецю.

Безпілотний транспорт: тестування технології та законодавства

Ще одна сфера, на яку чекає прорив завдякинавчання з підкріпленням - транспорт. Вже сьогодні на вулицях можна зустріти безпілотні автомобілі та роботів-доставників. Незважаючи на технологічні успіхи у цій галузі, аналітики McKinsey передбачають, що безпілотники стануть звичними не раніше 2030 року. Використання ускладнюється необхідністю розробки нормативних актів. У Сінгапурі та США автоматизований транспорт вже їздить по трасах, нещодавно з'явився дозвіл на тестування безпілотного таксі і в Росії.

«Автоматизація майже завжди підвищує рівень безпеки, але впровадження таких технологій зустрічають людиз побоюванням, – впевнений Олег Свідченко, – Якщо весь транспорт буде заміненона безпілотних Tesla кількість аварій на дорогах знизиться в кілька разів.Але кожна аварія викличе багато питань.Не можна однозначно, як і у випадку з людиною, сказати, що стало причиною аварії.І людей лякає ця невідомість».

«Ще одна сфера, на яку чекає прорив завдяки навчанню з підкріпленням — транспорт»

Чим цифрові двійники будуть корисні людству

Алгоритми навчання з підкріпленням дозволили створити цифрових двійників — віртуальні прототипи об'єктів, процесів і навіть людей, які містятьВін володіє тими ж властивостями і характеристиками, що і оригінали.Ця технологія використовується промисловими підприємствами, наприклад, для того, щоб перевірити, чи правильно налагоджені всі процеси перед запуском нового конвеєра.Звичайно, можна відразу включити вилку в розетку, але якщо це сталосяЩоб це виправити, знадобиться час і ресурси.попередньо запустити на комп'ютері. 

З цифровими двійниками людини все набагатоскладніше, оскільки живий організм більш комплексна система. І все ж таки вчені продовжують освоювати технологію, створюючи віртуальні копії як окремих органів, так і всього організму. Наприклад, бостонська лікарня використовує цифровий двійник серця для планування операцій. У перспективі це дозволить тестувати на віртуальному пацієнті методи лікування, прогнозувати захворювання і може претендувати на революцію в медицині.

«Розвиток ІІ, у тому числі RL, може призвести дотому, що люди почнуть краще розуміти самих себе, — припускає Олексій Шпільман. — Людина — закрита система, бо для самопізнання ми використовуємо власний мозок. Але чи достатньо цього інструменту? Навіть у психології для рефлексії потрібні двоє, а ми замкнені в собі. Глобально, в контексті Всесвіту, людство поки що знаходиться на самоті, а значить, нам нема з ким поспілкуватися, щоб дізнатися про себе щось нове і поглянути збоку. Можливо, завдяки навчанню з підкріпленням ми створимо певну сутність у нестямі. Вона не буде обмежена нашим мозком і свідомістю і зможе дати людині нові відповіді та смисли».

Чому повсюдне впровадження RL поки що обмежене

Незважаючи на успіхи, яких досягли вчені, практичне застосування РЛ все ще обмежене.Система довго навчається, робить багато помилок, тому всюди впроваджувати алгоритм складно і невигідно.

«Агенту потрібно більше повторень, тож процеснавчання займає досить багато часу, — пояснює Олександр Гришин. — Більш того, ІІ недостатньо вчинити кращу дію. Йому потрібно досліджувати середовище, оскільки велика нагорода може бути захована за непривабливими на даний момент кроками. Вся логіка навчання з підкріпленням зводиться до того, щоб ІІ навчився жертвувати миттєвою вигодою заради довгострокового успіху. Для цього потрібно мислити наперед та прораховувати можливі варіанти розвитку подій. Наприклад, коли агент віддасть коня, щоб захопити ферзя, вчені дуже зрадіють».

Завдання вчених полягає в тому, щоб ШІ збільшив темп навчання та покращив свою здатність до аналізу.Але є одна приземлена проблема, яка заважає нам швидко рухатися вперед: не вистачає кадрів у R&D-лабораторіях та IT-компаніях.Університети створюють лабораторії та дослідницькі центри, а технологічні гіганти відкривають спеціалізовані курси.

«Дослідження в галузі машинного навчання зараздуже затребувані. Галузь стрімко розвивається, а дефіцит кадрів щодня посилюється, — каже Олексій Шпільман. — Спеціалісти мають чудовий шанс включитися в процеси, які дозволять змінити світ до невпізнання. Цікавої роботи багато. Зараз ми стоїмо на самому початку шляху, але вже досягли непоганих результатів. Уявляєте, які перспективи відкриються перед людством завдяки використанню RL?

Читати далі:

Космічний зонд пролетів за 200 км від Меркурія. Подивіться, що він побачив

Вчені розкрили, як вітаміни впливають на захворюваність на рак

Китайський шолом для «читання думок» б'є на сполох, коли людина бачить порноконтент