素晴らしいニュース:科学者は追跡を回避するためにAI技術を教えています

北京大学の科学者は最近、詳細を明らかにした科学論文のプレプリントを出版した。

AI ホストが追跡を回避できるように訓練するために設計されたビデオ ゲーム ベースのシステム。

本質は何ですか

このジャンルで最も多くの研究が行われている「追跡と回避」 AI とゲーム理論では、機械に宇宙を探索するように教えることに関係しています。ほとんどの AI トレーニングには、目標を達成するとマシンに報酬を与えるシステムが含まれるため、開発者は学習のインセンティブとしてゲーミフィケーションを使用することがよくあります。

言い換えれば、単にロボットを部屋に置いて「これをしてください」と言うわけにはいきません。あなたは彼に目標とそれを達成するための理由を与えなければなりません。それが理由です研究者は、本質的に報酬を求めているAIを開発しています

従来の知能訓練環境の課題AI エージェントは、目標を達成するか報酬を見つけるまで、デジタル モデルを操作して宇宙を探索するという任務を負っています。これはパックマンを彷彿とさせます。AI は報酬のペレットをすべて食べるまで環境内を移動しなければなりません。

問題の歴史

DeepMindのAIシステム以来チェスと囲碁をマスターしたSCIIは、競争力のあるAIの主要なトレーニング環境になりました。プレイヤーとAI、またはプレイヤーとAIの組み合わせが自然に対峙するゲームです。

しかし、もっと重要なのは、DeepMindなど研究機関は、開発者が自分の仕事に集中できるようにするいくつかのミニゲームを使用して、ゲームのソースコードをAIの遊び場に変えるという大変な作業をすでに行っています。

前述の科学者、研究者 Xun Huang北京大学を卒業した彼は、「追跡回避パラダイム」の研究に着手した。 AI モデルのトレーニング用。しかし、SCII モデルにはいくつかの制限があることがわかりました。ゲームの組み込みバージョンでは「追跡回避」が行われます。追手の制御はAIに任せるしかない。

基本的なスキームには 3 つの追求が含まれます。キャラクター (ゲームの兵士が代表) と 25 人の回避キャラクター (ゲームのエイリアンが代表)。 「戦争の霧」を使用するモードもあります。マップを暗くして、追跡者が回避者を発見して破壊することを困難にしますが、研究によると、これは 1V1 モードです。

面白いけど基本的な行動 25ドジャースの戦略は、どこに現れても静止し、その場で追撃者を攻撃することです。追跡者は回避者よりもはるかに強いため、各回避者は発見され次第破壊されることが予想されます。

展望

Huang の記事ではパラダイムについて詳しく説明されていますSCII 環境での AI トレーニング。AI に追跡者を回避するよう教えることに重点を置いています。彼らのバージョンでは、AIは捕らえられて死を避けるために「戦争の霧」の中に隠れようとします。

これは、現実世界に大きな影響を与える可能性のあるビデオゲーム。世界最先端の軍事組織は、ビデオゲームを使用して人々を訓練しています。そして AI 開発者は、これらの学習環境を使用して、実際のロボット内で生活できるように AI の脳を準備します。

純粋に理論的には、Huang の研究は次のようです。エキサイティング。しかし、現場を走ったり飛び回ったりするだけでなく、特殊部隊の追跡を意図的に回避する能力を備えたボストン・ダイナミクスのロボットを想像してみてください。

出典: arxiv、deepmind、thenextweb

イラスト:グッドフォン

</ p>