
Ученый из Пекинского университета недавно опубликовал препринт научной статьи, в которой подробно описана
Kas yra esmė
Большинство исследований в жанре “преследование-избегание” в области ИИ и теории игр связаны с обучением машин исследованию пространства. Поскольку в большинстве случаев обучение ИИ предполагает систему, которая вознаграждает машину за достижение цели, разработчики часто используют геймификацию в качестве стимула для обучения.
Другими словами, нельзя просто засунуть робота в комнату и сказать “делай то-то”. Вы должны дать ему цели и причину для их достижения. Поэтому tyrinėtojai kuria AI, kuri savo prigimtimi siekia atlyginti.
Традиционная среда обучения разведке ставит перед агентом ИИ задачу манипулировать цифровыми моделями, чтобы исследовать пространство, пока он не выполнит свои цели или не найдет вознаграждение. Это напоминает Pac Man: ИИ должен перемещаться по окружению до тех пор, пока не съест все гранулы с вознаграждением.
Problemos istorija
Nuo pat „DeepMind“ AI sistemųįvaldęs šachmatus ir eiti, SCII tapo pagrindine konkurencinio AI mokymo aplinka. Tai žaidimas, kuriame žaidėjai, AI arba žaidėjų ir AI deriniai natūraliai priešinasi vienas kitam.
Bet dar svarbiau - „DeepMind“ ir kitimokslinių tyrimų organizacijos jau padarė sunkų darbą, paversdamos žaidimo šaltinio kodą dirbtinio intelekto žaidimų aikštele, kurioje yra keletas mini žaidimų, leidžiančių kūrėjams sutelkti dėmesį į savo darbą.
Исследователь Сюнь Хуанг, вышеупомянутый ученый из Пекинского университета, задался целью изучить парадигму “преследование-уклонение” для обучения моделей ИИ. Но обнаружил, что модель SCII имеет некоторые сдерживающие ограничения: во встроенной версии игры “преследование-уклонение” управление преследователями можно поручить только ИИ.

Основная схема включает в себя три преследующих персонажа (представленных солдатами из игры) и 25 персонажей-уклонистов (представленных пришельцами из игры). Существует также режим, использующий “туман войны” для затемнения карты, что затрудняет преследователю обнаружение и уничтожение уклониста, но, согласно исследованиям, это режим 1V1.
Забавно, но базовое поведение 25 уклонистов заключается в том, чтобы оставаться неподвижными, где бы они ни появились, а затем атаковать преследователей на месте. Поскольку преследователи намного сильнее уклоняющихся, это приводит к ожидаемому уничтожению каждого уклоняющегося сразу после обнаружения.
Perspektyvos
В статье Хуанга подробно описывается парадигма обучения ИИ в среде SCII, которая фокусируется на обучении ИИ уклоняться от преследователей. В их версии ИИ пытается скрыться в “тумане войны”, чтобы избежать поимки и гибели.
Это увлекательное исследование с использованием видеоигр, которое может иметь огромные последствия для реального мира. Самые передовые военные организации мира используют видеоигры для обучения людей. А разработчики ИИ используют эти обучающие среды для подготовки мозгов ИИ к жизни внутри реального робота.
Чисто теоретически работа Хуанга кажется захватывающей. Но только представьте себе робота Boston Dynamics, наделённого способностью не просто бегать и прыгать по площадке, а целенаправленно уходить от преследования отрядом спецназа.
Источник: arxiv, deepmind, thenextweb
Иллюстрации: goodfon
</ p>