Jūsų mokytojas: kaip algoritmai mokosi be žmogaus pagalbos ir pagerina dronus

Nepilotuojamos transporto priemonės, skaitmeniniai dvyniai ir automatinis telekomunikacijų valdymas – ne

mokslinės fantastikos rašytojų prognozės, ir jauArtima ateitis. Ją suartina mokslininkai, užsiimantys taikomuoju dirbtiniu intelektu ir tyrimais pastiprinimo mokymosi srityje. „Hi-Tech“ apie technologijų ateitį kalbėjosi su Olegu Svidčenko, Aleksandru Grišinu ir Aleksejumi Shpilmanu, kasmetinės Segalovičiaus premijos laureatais.

Kaip AI mokosi be mentoriaus

Sustiprinimo mokymasis,RL) daro prielaidą, kad pats AI sąveikauja su tam tikra aplinka - pavyzdžiui, žaidimo „Go“ lenta arba išoriniu pasauliu, jei robotas juda išilgai jos. Įrenginys turi nustatyti bendrus modelius ir sutelkti dėmesį į juos atliekant užduotis. O mokantis su „mokytoju“ jums reikia žmogaus, kuris turi nurodyti teisingus veiksmus, kuriuos atliks AI.

„RL esmė ta, kad mašina arba, kaip mes sakome,agentas, mokosi nuolatinės praktikos režimu“, – pažymi Olegas Svidčenka, Yandex mokslo premijos laureatas. - AI yra tam tikromis sąlygomis ir „kalbėk“ – veik. Tai panaši į situaciją, kai pele labirinte eina ieškoti sūrio. Pasukęs ne ta kryptimi, gyvūnas atsitrenkia į sieną, grįžta atgal, bando dar kartą ir pan. Pastiprinimo mokymosi atveju už teisingus žingsnius yra atlyginama. Kuo teisingesnis veiksmas, tuo daugiau taškų gaus AI. Jei pasirinkimas pasirodė neteisingas, agentas praranda taškus. Treniruotės metu mašina atsimena, kuris veiksmų derinys buvo pelningesnis, ir kitą kartą jį naudos.

Nepriklausoma sprendimo paieška leidžia agentuianksčiau ar vėliau pranoksta vyrą. Tai parodė, pavyzdžiui, „DeepMind“ „MuZero“ algoritmas, išmokęs žaisti daugybe senų „Atari“ vaizdo žaidimų, šachmatais ir „Go“ tipo stalo žaidimų. Norėdami jį sukurti, jie naudojo ankstesnius įmonės patobulinimus: pavyzdžiui, „AlphaGo“, kurio dėka buvo galima įveikti „Go“ čempioną Lee Sedol, ir „AlphaZero“, kuris naudojamas šachmatuose. Patobulintas algoritmas išgauna daugiau informacijos iš mažiau duomenų – dabar jam reikia pusės mokymo žingsnių.

Sustiprinimo mokymosi algoritmai galinaudinga įvairiose pramonės šakose. Pavyzdžiui, medicinoje – personalizuoto dinaminio gydymo organizavimui, pramogų industrijoje – automatiniam kompiuterinių žaidimų testavimui arba aviacijoje – autonominiam stratosferinio baliono valdymui.

Kuriose srityse AI ateis į pagalbą žmonėms

Mažmeninės prekybos skaitmeninimas: visiškai automatizuotos parduotuvės

Pirmasis mašininis mokymasis įdiegtas pramonės šakosekur derinamas didelio duomenų kiekio rinkimo ir skaitmeninimo procesas. Pavyzdžiui, mažmeninėje prekyboje visa informacija pereina per kasos aparatus, o tai reiškia, kad dirbtinis intelektas turi su kuo dirbti. Aleksejaus Shpilmano teigimu, AI algoritmų naudojimas leis visur kurti automatizuotas parduotuves, kuriose visi procesai vyks be žmogaus įsikišimo.

Šis formatas buvo išbandytas dar 2016 m.Amazon kompanija. Pirkėjas paima vežimėlį, pasiima jame prekes ir tiesiog išeina – pinigai už pirkinį nurašomi nuo kortelės automatiškai. Rusijoje panašų projektą sukūrė Azbuka Vkusa.

„Pirkėjas pasiima vežimėlį, pasiima jame prekes ir tiesiog išeina – pinigai už pirkinį nurašomi nuo kortelės automatiškai“

Telekomunikacijų valdymas: tinklo gedimų nustatymas 

Pastiprinimo mokymosi dėkatechnologiniai proveržiai gali atsirasti valdant įvairius tinklus – telekomunikacijų, šilumos tinklus, elektros energetiką. Daugelį procesų čia gana lengva robotizuoti, nes nėra daug bendravimo su žmonėmis.

Automatizavimas leis sukurti sistemas, kuriospriims labiau pagrįstus sprendimus ir optimizuos energijos suvartojimą. Pavyzdžiui, remiantis RL algoritmais, kuriamas ŠVOK valdiklis (Heating, Ventilation, & Air Conditioning santrumpa – šildymas, vėdinimas ir oro kondicionavimas) – tai kambario temperatūros ir vėdinimo valdymo sistema. Šios technologijos naudojimas versle padės sutaupyti energijos ir sumažinti anglies dvideginio išmetimą.

Nepilotuojamos transporto priemonės: testavimo technologija ir teisės aktai

Dar viena sritis, kurios dėka laukia proveržispastiprinimo mokymasis – transportavimas. Jau šiandien gatvėse galima rasti nepilotuojamų transporto priemonių ir pristatymo robotų. Nepaisant technologinės pažangos pramonėje, „McKinsey“ analitikai prognozuoja, kad dronai taps įprastais ne anksčiau kaip 2030 m. Įgyvendinimą apsunkina būtinybė parengti reglamentus. Singapūre ir JAV greitkeliuose jau įsibėgėja automatizuotas transportas, o neseniai pasirodė leidimas išbandyti nepilotuojamą taksi Rusijoje.

„Automatika beveik visada tobulėjasaugumo, tačiau žmonės su baime pasitinka tokių technologijų įdiegimą“, – įsitikinęs Olegas Svidčenka. — Jei visą transportą pakeisite nepilotuojamais Teslas, avarijų keliuose skaičius sumažės kelis kartus. Tačiau kiekviena avarija sukels daug klausimų. Negalime tiksliai pasakyti, kaip ir žmogaus atveju, dėl ko įvyko avarija. Ir žmonės bijo šios nežinomybės.

„Kita sritis, kuri laukia proveržio dėl sustiprinto mokymosi, yra transportas“

Kaip skaitmeniniai dvyniai bus naudingi žmonijai

Sustiprinimo mokymosi algoritmai leido tai padarytisukurti skaitmeninius dvynius – virtualius objektų, procesų ir net žmonių prototipus, turinčius tas pačias savybes ir savybes kaip ir originalai. Pavyzdžiui, pramonės įmonės naudoja šią technologiją, kad patikrintų, ar visi procesai tinkamai sureguliuoti prieš paleidžiant naują konvejerį. Žinoma, galite iš karto įkišti kištuką į lizdą, tačiau jei įvyktų gedimas, tai užtruks laiko ir išteklių. Todėl konvejeris pirmiausia paleidžiamas kompiuteriu. 

Su žmogaus skaitmeniniais dvyniais viskas daug geriausunkiau, nes gyvas organizmas yra sudėtingesnė sistema. Ir vis dėlto mokslininkai ir toliau įvaldo technologiją, kurdami virtualias atskirų organų ir viso organizmo kopijas. Pavyzdžiui, Bostono ligoninė operacijų planavimui naudoja skaitmeninį širdies dvynį. Ateityje tai leis išbandyti virtualaus paciento gydymo metodus, numatyti ligas ir gali pretenduoti į revoliuciją medicinoje.

„AI, įskaitant RL, plėtra gali sukeltitai, kad žmonės pradės geriau suprasti save“, – siūlo Aleksejus Shpilmanas. „Žmogus yra uždara sistema, nes savęs pažinimui naudojame savo smegenis. Bet ar mums užtenka šios priemonės? Net psichologijoje refleksijai reikalingi du žmonės, o mes esame užsidarę savyje. Pasauliniu mastu, Visatos kontekste, žmonija tebėra viena, o tai reiškia, kad mes neturime su kuo pasikalbėti, kad sužinotume apie save ką nors naujo ir pažvelgtume iš šalies. Galbūt pastiprinimo mokymosi dėka mes sukursime kažkokią esybę už savęs ribų. Jis nebus apribotas mūsų smegenų ir sąmonės ir galės suteikti žmogui naujus atsakymus ir reikšmes.“

Kodėl plačiai paplitęs RL įgyvendinimas vis dar ribotas

Nepaisant mokslininkų padarytos pažangos, praktinis RL pritaikymas vis dar ribotas. Sistema ilgai išmokstama ir daro daug klaidų, todėl visur diegti algoritmą yra sunku ir nepelninga.

„Agentui reikia daugiau pakartojimų, todėl procesasmokymasis užtrunka gana ilgai, – aiškina Aleksandras Grišinas – Be to, AI neužtenka atlikti geriausią veiksmą. Jam reikia tyrinėti aplinką, nes už šiuo metu nepatrauklių judesių gali slypėti didelis atlygis. Visa sustiprinimo mokymosi logika susiveda į tai, kad dirbtinis intelektas išmoksta paaukoti trumpalaikę naudą dėl ilgalaikės sėkmės. Norėdami tai padaryti, turite galvoti iš anksto ir apskaičiuoti galimus įvykių raidos scenarijus. Pavyzdžiui, kai agentas atiduos riterį, norėdamas sugauti karalienę, mokslininkai bus labai laimingi.

Mokslininkų užduotis yra užtikrinti, kad dirbtinis intelektas augtųmokymosi tempas ir geresnis gebėjimas analizuoti. Tačiau sparčiai pažangai trukdo viena kasdieniška problema: MTEP laboratorijose ir IT įmonėse trūksta darbuotojų. Universitetai kuria laboratorijas ir tyrimų centrus, technologijų gigantai atidaro specializuotus kursus.

„Dabar atliekami mašininio mokymosi tyrimailabai paklausus. Pramonė sparčiai vystosi, o darbuotojų trūkumas kasdien didėja“, – sako Aleksejus Špilmanas. „Specialistai turi puikią galimybę įsitraukti į procesus, kurie neatpažįstamai pakeis pasaulį. Daug įdomių darbų. Dabar esame pačioje kelio pradžioje, bet jau pasiekėme gerų rezultatų. Ar įsivaizduojate, kokios perspektyvos atsivers žmonijai panaudojus RL?

Skaityti daugiau:

Kosminis zondas nuskriejo 200 km nuo Merkurijaus. Pažiūrėk, ką jis matė

Mokslininkai atskleidžia, kaip vitaminai veikia sergamumą vėžiu

Kiniškas minčių skaitymo šalmas skamba pavojaus signalu, kai žmogus mato pornografinį turinį

Geek Tech Online

Viskas apie technologijas ir įtaisus

Jūsų mokytojas: kaip algoritmai mokosi be žmogaus pagalbos ir pagerina dronus

Kaip AI mokosi be mentoriaus

Kuriose srityse AI ateis į pagalbą žmonėms

Kaip skaitmeniniai dvyniai bus naudingi žmonijai

Kodėl plačiai paplitęs RL įgyvendinimas vis dar ribotas