Váš vlastní učitel: jak se algoritmy učí bez lidské pomoci a jak vylepšují drony

Bezpilotní prostředky, digitální dvojčata a automatické řízení telekomunikací nejsou

předpovědi spisovatelů sci-fi a jižv dohledné budoucnosti. Přibližují jej vědci, kteří se zabývají aplikovanou umělou inteligencí a výzkumem v oblasti posilovacího učení. Hi-Tech hovořil o budoucnosti technologie s Olegem Svidčenkem, Alexandrem Grishinem a Alexejem Shpilmanem, vítězi výroční Segalovičovy ceny.

Jak se AI učí bez mentora

posílení učení,RL) předpokládá, že samotná umělá inteligence interaguje s určitým prostředím – například deskou pro hru Go nebo vnějším světem, pokud se po ní robot pohybuje. Zařízení potřebuje identifikovat běžné vzorce a zaměřit se na ně při provádění úkolů. A když se učíte s „učitelem“, potřebujete osobu, která musí uvést správnou akci, na které bude AI trénovat.

„Podstatou RL je, že stroj nebo, jak říkáme,agent, se učí v režimu neustálého cvičení,“ poznamenává Oleg Svidchenko, laureát ceny Yandex Science Prize. - AI je umístěna do určitých podmínek a "řekni" - jednaj. Je to podobné, jako když se myš vydá hledat sýr v bludišti. Když zvíře zatočí špatným směrem, narazí na stěnu, vrátí se, zkusí to znovu a tak dále. V případě posilovacího učení jsou správné kroky odměněny. Čím správnější akce, tím více bodů AI obdrží. Pokud se volba ukáže jako nesprávná, agent ztrácí body. Během tréninku si stroj zapamatuje, která kombinace akcí byla výhodnější, a příště ji použije.“

Nezávislé hledání řešení umožňuje agentovidříve nebo později předčí člověka. Ukázal to například algoritmus MuZero společnosti DeepMind, který se naučil hrát desítky starých videoher Atari, šachy a deskové hry typu Go. K jeho vytvoření použili předchozí vývoj společnosti: například AlphaGo, díky kterému bylo možné porazit Go šampiona Lee Sedola, a AlphaZero, který se používá v šachu. Vylepšený algoritmus získává více informací z menšího množství dat – nyní potřebuje polovinu tréninkových kroků.

Algoritmy učení zesílení mohouužitečné v různých průmyslových odvětvích. Například v medicíně - pro organizování personalizované dynamické léčby, v zábavním průmyslu - pro automatické testování počítačových her nebo v letectví - pro autonomní řízení stratosférického balónu.

V jakých oblastech přijde AI lidem na pomoc

Digitalizace maloobchodu: plně automatizované prodejny

První, kdo implementoval strojové učení v průmyslových odvětvíchkde je odladěn proces shromažďování a digitalizace velkého množství dat. Například v retailu všechny informace procházejí přes pokladny, což znamená, že AI má s čím pracovat. Podle Alexeye Shpilmana použití algoritmů AI umožní vytvářet automatizované obchody všude, kde budou všechny procesy probíhat bez lidského zásahu.

Tento formát byl testován již v roce 2016.společnost Amazon. Kupující vezme košík, vyzvedne do něj zboží a jen odejde - peníze za nákup se z karty odepíšou automaticky. V Rusku podobný projekt vyvinula společnost Azbuka Vkusa.

„Kupující vezme vozík, vyzvedne v něm zboží a prostě odejde – peníze za nákup jsou z karty odečteny automaticky“

Správa telekomunikací: identifikace poruch sítě 

Díky posilovacímu učenítechnologické průlomy mohou nastat ve správě různých sítí - telekomunikace, teplárenské sítě, elektroenergetika. Mnoho procesů se zde dá docela snadno robotizovat, protože zde není moc interakce s lidmi.

Automatizace povede k vytvoření systémů, kterébude činit informovanější rozhodnutí a optimalizovat spotřebu energie. Například na základě algoritmů RL je vyvíjen regulátor HVAC (zkratka pro Heating, Ventilation, & Air Conditioning - Topení, ventilace a klimatizace) - jedná se o systém řízení pokojové teploty a ventilace. Použití této technologie v podnicích pomůže jak ušetřit spotřebu energie, tak snížit emise uhlíku.

Bezpilotní vozidla: Technologie testování a legislativa

Další oblast, která čeká na průlom díkyposilovací učení - doprava. Již dnes lze na ulicích nalézt bezpilotní vozidla a doručovací roboty. Navzdory technologickému pokroku v tomto odvětví analytici McKinsey předpovídají, že se drony stanou mainstreamem nejdříve v roce 2030. Implementaci komplikuje potřeba vypracovat předpisy. V Singapuru a Spojených státech už je automatizovaná doprava po dálnicích v plném proudu a nedávno se objevilo povolení k testování bezpilotního taxi v Rusku.

„Automatizace se téměř vždy zlepšujebezpečnost, ale lidé zavedení takových technologií vítají se strachem,“ je si jistý Oleg Svidčenko. — Pokud veškerou dopravu nahradíte bezpilotními Teslami, počet nehod na silnicích se několikanásobně sníží. Každá nehoda ale vyvolá mnoho otázek. Nemůžeme s jistotou říci, jako v případě osoby, co nehodu způsobilo. A lidé se tohoto neznáma bojí."

„Další oblastí, která čeká na průlom díky posilujícímu učení, je doprava“

Jak budou digitální dvojčata užitečná lidstvu

Algoritmy učení zesílení to umožnilyvytvářet digitální dvojčata – virtuální prototypy objektů, procesů a dokonce i lidí, které obsahují stejné vlastnosti a charakteristiky jako originály. Průmyslové podniky tuto technologii využívají například ke kontrole, zda jsou všechny procesy správně nastaveny před spuštěním nového dopravníku. Zástrčku můžete samozřejmě okamžitě zasunout do zásuvky, ale pokud dojde k poruše, její oprava bude vyžadovat čas a prostředky. Proto se dopravník nejprve spustí na počítači. 

S lidskými digitálními dvojčaty je všechno mnohem lepšíobtížnější, protože živý organismus je složitější systém. A přesto vědci pokračují ve zvládnutí technologie a vytvářejí virtuální kopie jak jednotlivých orgánů, tak celého organismu. Například bostonská nemocnice používá digitální dvojče srdce k plánování operací. V budoucnu to umožní testování metod léčby na virtuálním pacientovi, předpovídání nemocí a může se klidně stát revolucí v medicíně.

„Vývoj AI, včetně RL, by mohl vést kskutečnost, že lidé začnou lépe rozumět sami sobě,“ navrhuje Aleksey Shpilman. „Člověk je uzavřený systém, protože k sebepoznání používáme vlastní mozek. Ale stačí nám tento nástroj? I v psychologii jsou k reflexi potřeba dva lidé a jsme uzavřeni sami v sobě. Globálně je lidstvo v kontextu Vesmíru stále samo, což znamená, že si nemáme s kým popovídat, abychom se o sobě dozvěděli něco nového a podívali se zvenčí. Možná si díky posilujícímu učení vytvoříme nějakou entitu mimo sebe. Nebude omezena naším mozkem a vědomím a bude schopna dát člověku nové odpovědi a významy.“

Proč je rozšířená implementace RL stále omezená

Navzdory pokroku, kterého vědci dosáhli, je praktické použití RL stále omezené. Systém se dlouho učí a dělá spoustu chyb, takže implementace algoritmu všude je obtížná a nerentabilní.

"Agent potřebuje více opakování, takže ten proces."učení trvá poměrně dlouho, - vysvětluje Alexander Grishin - Navíc to nestačí, aby umělá inteligence provedla nejlepší akci. Potřebuje prozkoumat prostředí, protože za aktuálně neatraktivními tahy se může skrývat velká odměna. Celá logika posilovacího učení spočívá ve skutečnosti, že AI se učí obětovat krátkodobé výhody pro dlouhodobý úspěch. K tomu je potřeba myslet dopředu a vypočítat možné scénáře vývoje událostí. Když se například agent vzdá rytíře, aby zajal královnu, vědci budou velmi šťastní.“

Úkolem vědců je zajistit, aby AI rostlarychlost učení a lepší schopnost analyzovat. Jeden světský problém však brání rychlému pokroku: ve výzkumných a vývojových laboratořích a IT společnostech je nedostatek zaměstnanců. Univerzity vytvářejí laboratoře a výzkumná centra, technologickí giganti otevírají specializované kurzy.

„Teď výzkum v oblasti strojového učenívelmi žádaný. Odvětví se rychle rozvíjí a nedostatek personálu se každým dnem zvyšuje,“ říká Alexey Shpilman. „Specialisté mají velkou šanci zapojit se do procesů, které změní svět k nepoznání. Spousta zajímavé práce. Nyní jsme na samém začátku cesty, ale již jsme dosáhli dobrých výsledků. Dokážete si představit, jaké vyhlídky se lidstvu otevřou díky použití RL?

Přečtěte si více:

Vesmírná sonda letěla 200 km od Merkuru. Podívejte se, co viděl

Vědci odhalují, jak vitamíny ovlivňují výskyt rakoviny

Čínská helma na čtení myšlenek spustí alarm, když člověk uvidí porno obsah