Store nyheder: Forskere lærer AI -teknikker for at undgå forfølgelse

En videnskabsmand fra Peking Universitet offentliggjorde for nylig et fortryk af en videnskabelig artikel med detaljer

et videospil-baseret system designet til at træne AI-værter til at undgå forfølgelse.

Hvad er essensen

Mest research i genren“forfølgelse-undgåelse” i AI og spilteori er optaget af at lære maskiner at udforske rummet. Da det meste AI-træning involverer et system, der belønner maskinen for at nå et mål, bruger udviklere ofte gamification som et incitament til læring.

Med andre ord kan du ikke bare stikke en robot ind i et rum og sige “gør det her”. Du skal give ham mål og en grund til at nå dem. Det er derforforskere udvikler AI, der i sagens natur søger at belønne.

Det traditionelle intelligenstræningsmiljø udfordrerEn AI-agent har til opgave at manipulere digitale modeller for at udforske rummet, indtil den fuldfører sine mål eller finder en belønning. Det minder om Pac Man: AI skal bevæge sig rundt i miljøet, indtil den spiser alle belønningspillerne.

Problemets historie

Lige siden DeepMinds AI -systemermestrede skak og go, blev SCII det primære træningsmiljø for konkurrencedygtig AI. Det er et spil, hvor spillere, AI eller kombinationer af spillere og AI naturligvis modsætter sig hinanden.

Men endnu vigtigere, DeepMind og andreforskningsorganisationer har allerede gjort det hårde arbejde med at gøre spillets kildekode til en AI -legeplads med flere minispil, der giver udviklere mulighed for at fokusere på deres arbejde.

Forsker Xun Huang, den førnævnte videnskabsmandfra Peking University, satte sig for at studere “pursuit-evasion paradigmet” til træning af AI-modeller. Men jeg opdagede, at SCII-modellen har nogle begrænsende begrænsninger: i den indbyggede version af spillet “pursuit-evasion” Kontrol af forfølgere kan kun overlades til AI.

Grundordningen omfatter tre forfølgendekarakter (repræsenteret af soldaterne fra spillet) og 25 undvigerfigurer (repræsenteret af rumvæsnerne fra spillet). Der er også en tilstand, der bruger “krigståge” at gøre kortet mørkere, hvilket gør det svært for forfølgeren at opdage og ødelægge unddrageren, men ifølge forskning er dette en 1V1-tilstand.

Sjov men grundlæggende adfærd 25Dodgers' strategi er at forblive stationære, uanset hvor de dukker op og derefter angribe deres forfølgere på stedet. Da forfølgere er meget stærkere end unddragere, resulterer dette i den forventede ødelæggelse af hver undviger umiddelbart efter opdagelse.

Perspektiver

Huangs artikel beskriver paradigmet i detaljerAI-træning i SCII-miljøet, som fokuserer på at lære AI at unddrage sig forfølgere. I deres version forsøger AI at gemme sig i "krigens tåge" for at undgå tilfangetagelse og død.

Dette er en fascinerende undersøgelse ved hjælp afvideospil, der kan have enorme konsekvenser for den virkelige verden. Verdens mest avancerede militærorganisationer bruger videospil til at træne folk. Og AI-udviklere bruger disse læringsmiljøer til at forberede AI-hjerne til livet inde i en rigtig robot.

Rent teoretisk virker Huangs arbejdespændende. Men forestil dig bare en Boston Dynamics-robot, udstyret med evnen til ikke blot at løbe og hoppe rundt på stedet, men til målrettet at unddrage sig forfølgelse af en specialstyrke.

Kilde: arxiv, deepmind, thenextweb

Illustrationer: goodfon

</ p>