Boas notícias: os cientistas ensinam técnicas de IA para evitar perseguições

Um cientista da Universidade de Pequim publicou recentemente a pré-impressão de um artigo científico detalhando

um sistema baseado em videogame projetado para treinar hosts de IA para evitar perseguições.

Qual é a essência

A maioria dos estudos do gênero“evitação de perseguição” em IA e teoria dos jogos estão preocupados em ensinar máquinas a explorar o espaço. Como a maior parte do treinamento em IA envolve um sistema que recompensa a máquina por atingir um objetivo, os desenvolvedores costumam usar a gamificação como incentivo ao aprendizado.

Em outras palavras, você não pode simplesmente colocar um robô em uma sala e dizer “faça isso”. Você deve dar a ele objetivos e uma razão para alcançá-los. É por issopesquisadores estão desenvolvendo IA que, por sua natureza, busca recompensar.

Os desafios do ambiente tradicional de treinamento de inteligênciaUm agente de IA tem a tarefa de manipular modelos digitais para explorar o espaço até completar seus objetivos ou encontrar uma recompensa. É uma reminiscência de Pac Man: a IA deve se mover pelo ambiente até comer todas as bolinhas de recompensa.

História do problema

Desde os sistemas de IA da DeepMinddominado o xadrez e go, SCII se tornou o principal ambiente de treinamento para IA competitiva. É um jogo em que jogadores, IA ou combinações de jogadores e IA se opõem naturalmente.

Mas o mais importante, DeepMind e outrosorganizações de pesquisa já fizeram o trabalho árduo de transformar o código-fonte do jogo em um playground de IA com vários minijogos que permitem que os desenvolvedores se concentrem em seu trabalho.

Pesquisador Xun Huang, o citado cientistada Universidade de Pequim, decidiu estudar o “paradigma de perseguição-evasão” para treinar modelos de IA. Mas descobri que o modelo SCII tem algumas limitações: na versão integrada do jogo “perseguição-evasão” O controle dos perseguidores só pode ser confiado à IA.

O esquema básico inclui trêspersonagem (representado pelos soldados do jogo) e 25 personagens evasores (representados pelos alienígenas do jogo). Há também um modo que usa “névoa de guerra” para escurecer o mapa, dificultando ao perseguidor detectar e destruir o evasor, mas segundo pesquisas, este é um modo 1V1.

Comportamento engraçado, mas básico 25A estratégia dos Dodgers é permanecer parado onde quer que apareçam e então atacar seus perseguidores no local. Como os perseguidores são muito mais fortes que os evasores, isso resulta na destruição esperada de cada evasor imediatamente após a detecção.

Perspectivas

O artigo de Huang descreve o paradigma em detalhesTreinamento de IA no ambiente SCII, que se concentra em ensinar IA a fugir dos perseguidores. Na versão deles, a IA tenta se esconder na “névoa da guerra” para evitar a captura e a morte.

Este é um estudo fascinante usandovideogames que podem ter enormes implicações para o mundo real. As organizações militares mais avançadas do mundo usam videogames para treinar pessoas. E os desenvolvedores de IA usam esses ambientes de aprendizagem para preparar cérebros de IA para a vida dentro de um robô real.

Teoricamente, o trabalho de Huang pareceexcitante. Mas imagine um robô da Boston Dynamics, dotado da capacidade não apenas de correr e pular pelo local, mas de evitar propositalmente a perseguição de um esquadrão de forças especiais.

Fonte: arxiv, mente profunda, thenextweb

Ilustrações: goodfon

</ p>