
북경대학교의 한 과학자는 최근 다음과 같은 내용을 자세히 설명하는 과학 논문의 사전 인쇄본을 발표했습니다.
본질은 무엇입니까
해당 장르에서 가장 많은 연구'추격회피' AI와 게임 이론에서는 기계에게 우주를 탐험하도록 가르치는 것과 관련이 있습니다. 대부분의 AI 교육에는 목표 달성에 대해 기계에 보상을 제공하는 시스템이 포함되므로 개발자는 학습에 대한 인센티브로 게임화를 사용하는 경우가 많습니다.
즉, 로봇을 방에 그냥 놔두고 '이렇게 해라'라고 말할 수는 없습니다. 그에게 목표와 목표를 달성할 이유를 제시해야 합니다. 그렇기 때문에연구자들은 본질적으로 보상을 추구하는 AI를 개발하고 있습니다..
전통적인 지능 훈련 환경의 과제AI 에이전트는 목표를 완료하거나 보상을 찾을 때까지 디지털 모델을 조작하여 우주를 탐색하는 임무를 맡습니다. 이는 팩맨을 연상시킵니다. AI는 보상 알약을 모두 먹을 때까지 환경을 돌아다녀야 합니다.
문제의 역사
DeepMind의 AI 시스템 이후로체스와 바둑을 마스터하면서 SCII는 경쟁력 있는 AI를 위한 기본 훈련 환경이 되었습니다. 플레이어, AI 또는 플레이어와 AI의 조합이 자연스럽게 서로 대립하는 게임입니다.
그러나 더 중요한 것은 DeepMind 및 기타연구 기관은 이미 개발자가 작업에 집중할 수 있는 여러 미니 게임을 통해 게임의 소스 코드를 AI 놀이터로 바꾸는 힘든 작업을 완료했습니다.
앞서 언급한 과학자 Xun Huang 연구원북경대학교에서 '추격-회피 패러다임'을 연구하기 시작했습니다. AI 모델 훈련을 위해 그러나 나는 SCII 모델에 몇 가지 제한적인 한계가 있다는 것을 발견했습니다. 추적자의 통제는 AI에게만 맡길 수 있습니다.

기본 계획에는 세 가지 추구가 포함됩니다.캐릭터(게임의 군인으로 표시)와 25명의 회피자 캐릭터(게임의 외계인으로 표시). '전장의 안개'를 활용하는 모드도 있다. 지도를 어둡게 만들어 추적자가 회피자를 탐지하고 파괴하기 어렵게 만드는데, 연구에 따르면 이는 1V1 모드입니다.
재미있지만 기본적인 행동 25다저스의 전략은 등장하는 곳마다 가만히 있다가 추격자를 그 자리에서 공격하는 것이다. 추적자는 회피자보다 훨씬 강력하기 때문에 탐지 즉시 각 회피자가 파괴될 것으로 예상됩니다.
관점
Huang의 기사는 패러다임을 자세히 설명합니다.추격자를 회피하기 위해 AI를 가르치는 데 초점을 맞춘 SCII 환경에서의 AI 훈련입니다. 그들의 버전에서 AI는 포획과 죽음을 피하기 위해 "전쟁의 안개" 속에 숨으려고 합니다.
이용한 흥미로운 연구입니다.현실 세계에 큰 영향을 미칠 수 있는 비디오 게임. 세계에서 가장 발전된 군사 조직에서는 사람들을 훈련시키기 위해 비디오 게임을 사용합니다. 그리고 AI 개발자는 이러한 학습 환경을 사용하여 실제 로봇 내부에서 생활할 수 있도록 AI 두뇌를 준비합니다.
순전히 이론적으로 Huang의 작업은 다음과 같습니다.신나는. 하지만 현장을 뛰어다니고 점프할 수 있을 뿐만 아니라 의도적으로 특수 부대의 추격을 피할 수 있는 능력을 갖춘 Boston Dynamics 로봇을 상상해 보십시오.
출처: arxiv, deepmind, thenextweb
일러스트레이션: 굿폰
</ p>