Je eigen leraar: hoe algoritmen leren zonder menselijke hulp en drones beter maken

Onbemande voertuigen, digitale tweelingen en automatische controle van telecommunicatie zijn dat niet

voorspellingen van sciencefictionschrijvers, en alNabije toekomst. Het wordt dichterbij gebracht door wetenschappers die zich bezighouden met toegepaste kunstmatige intelligentie en onderzoek op het gebied van versterkend leren. Hi-Tech sprak over de toekomst van technologie met Oleg Svidchenko, Alexander Grishin en Alexey Shpilman, winnaars van de jaarlijkse Segalovich-prijs.

Hoe AI leert zonder mentor

Versterkend leren,RL) gaat ervan uit dat de AI zelf interageert met een bepaalde omgeving - bijvoorbeeld een bord voor het Go-spel of de buitenwereld als de robot er langs beweegt. Het apparaat moet gemeenschappelijke patronen herkennen en daarop focussen bij het uitvoeren van taken. En bij het leren met een "leraar" heb je een persoon nodig die de juiste actie moet aangeven waarop de AI zal trainen.

“De essentie van RL is dat de machine of, zoals we zeggen,agent, leert in de modus van constante oefening”, merkt Oleg Svidchenko op, laureaat van de Yandex Science Prize. - AI wordt onder bepaalde voorwaarden geplaatst en "zeggen" - handelen. Dit is vergelijkbaar met de situatie wanneer een muis op zoek gaat naar kaas in een doolhof. Na een bocht in de verkeerde richting te hebben gemaakt, botst het dier tegen de muur, komt terug, probeert het opnieuw, enzovoort. In het geval van versterkend leren worden correcte stappen beloond. Hoe correcter de actie, hoe meer punten de AI krijgt. Blijkt de keuze niet juist, dan verliest de agent punten. Tijdens de training onthoudt de machine welke combinatie van acties winstgevender was en zal hij deze de volgende keer gebruiken.”

Zelfstandig zoeken naar een oplossing stelt de agent in staatvroeg of laat de man overtreffen. Dit werd bijvoorbeeld aangetoond door het MuZero-algoritme van DeepMind, dat tientallen oude Atari-videogames, schaak- en Go-type bordspellen leerde spelen. Om het te maken, gebruikten ze eerdere ontwikkelingen van het bedrijf: bijvoorbeeld AlphaGo, waardoor het mogelijk was om de Go-kampioen Lee Sedol te verslaan, en AlphaZero, dat wordt gebruikt bij schaken. Het verbeterde algoritme haalt meer informatie uit minder gegevens - nu heeft het de helft van de trainingsstappen nodig.

Reinforcement learning-algoritmen kunnenbruikbaar in verschillende industrieën. Bijvoorbeeld in de geneeskunde - voor het organiseren van gepersonaliseerde dynamische behandelingen, in de entertainmentindustrie - voor het automatisch testen van computerspellen, of in de luchtvaart - voor het autonoom besturen van een stratosferische ballon.

Op welke gebieden gaat AI mensen helpen

Digitalisering van de detailhandel: volledig geautomatiseerde winkels

De eerste die machine learning in industrieën implementeerdewaar het proces van het verzamelen en digitaliseren van grote hoeveelheden gegevens wordt gedebugd. In de retail gaat bijvoorbeeld alle informatie via kassa's, waardoor AI iets te doen heeft. Volgens Alexey Shpilman zal het gebruik van AI-algoritmen het mogelijk maken om overal geautomatiseerde winkels te creëren, waar alle processen zullen plaatsvinden zonder menselijke tussenkomst.

Dit formaat is in 2016 getest.Amazon bedrijf. De koper neemt de kar, pakt goederen erin en gaat gewoon weg - het geld voor de aankoop wordt automatisch van de kaart afgeschreven. In Rusland werd een soortgelijk project ontwikkeld door Azbuka Vkusa.

"De koper pakt de kar, pakt er goederen in en gaat gewoon weg - het geld voor de aankoop wordt automatisch van de kaart afgeschreven"

Telecommunicatiebeheer: netwerkfouten identificeren

Dankzij versterkend lerentechnologische doorbraken kunnen plaatsvinden in het beheer van verschillende netwerken - telecommunicatie, verwarmingsnetwerken, elektriciteitsindustrie. Veel processen zijn hier vrij eenvoudig te robotiseren, omdat er niet veel interactie is met mensen.

Automatisering zal leiden tot het creëren van systemen die dat doenzullen beter geïnformeerde beslissingen nemen en het energieverbruik optimaliseren. Op basis van RL-algoritmen wordt bijvoorbeeld een HVAC-controller ontwikkeld (een acroniem voor Heating, Ventilation, & Air Conditioning - Heating, ventilatie en airconditioning) - dit is een controlesysteem voor de kamertemperatuur en de ventilatie. Het gebruik van deze technologie in bedrijven zal zowel het energieverbruik helpen besparen als de CO2-uitstoot verminderen.

Onbemande voertuigen: technologie en wetgeving testen

Een ander gebied dat wacht op een doorbraak dankzijversterking leren - transport. Nu al zijn onbemande voertuigen en bezorgrobots op straat te vinden. Ondanks de technologische vooruitgang in de industrie voorspellen McKinsey-analisten dat drones op zijn vroegst pas in 2030 mainstream zullen worden. De uitvoering wordt bemoeilijkt door de noodzaak om regelgeving te ontwikkelen. In Singapore en de Verenigde Staten is het geautomatiseerd vervoer al in volle gang langs de snelwegen en is onlangs toestemming verschenen om een onbemande taxi in Rusland te testen.

“Automatisering verbetert vrijwel altijdveiligheid, maar mensen begroeten de introductie van dergelijke technologieën met angst”, weet Oleg Svidchenko zeker. — Als je al het transport vervangt door onbemande Tesla's, zal het aantal ongelukken op de weg meerdere malen dalen. Maar elk ongeval zal veel vragen oproepen. We kunnen niet met zekerheid zeggen, zoals in het geval van een persoon, wat de oorzaak van het ongeval is. En mensen zijn bang voor dit onbekende.”

“Een ander gebied dat wacht op een doorbraak dankzij versterkingsleren is transport”

Hoe digitale tweelingen nuttig zullen zijn voor de mensheid

Versterkende leeralgoritmen hebben dit mogelijk gemaaktcreëer digitale tweelingen - virtuele prototypes van objecten, processen en zelfs mensen die dezelfde eigenschappen en kenmerken hebben als de originelen. Industriële bedrijven gebruiken deze technologie bijvoorbeeld om te controleren of alle processen goed zijn aangepast voordat ze een nieuwe transportband lanceren. Uiteraard kunt u de stekker meteen in het stopcontact steken, maar als er een storing optreedt, kost het tijd en middelen om deze te repareren. Daarom wordt de transportband eerst op een computer gestart. 

Alles is veel beter met menselijke digitale tweelingenmoeilijker, omdat een levend organisme een complexer systeem is. En toch blijven wetenschappers de technologie beheersen door virtuele kopieën te maken van zowel individuele organen als het hele organisme. Een ziekenhuis in Boston gebruikt bijvoorbeeld een digitale tweeling van het hart om operaties te plannen. In de toekomst zal dit het mogelijk maken om behandelmethoden op een virtuele patiënt te testen, ziekten te voorspellen en wellicht een revolutie in de geneeskunde te zijn.

“De ontwikkeling van AI, inclusief RL, zou kunnen leiden tot:het feit dat mensen zichzelf beter gaan begrijpen”, stelt Aleksey Shpilman voor. “De mens is een gesloten systeem, omdat we ons eigen brein gebruiken voor zelfkennis. Maar is dit hulpmiddel genoeg voor ons? Zelfs in de psychologie zijn twee mensen nodig voor reflectie en zijn we in onszelf gesloten. Wereldwijd is de mensheid in de context van het universum nog steeds alleen, wat betekent dat we niemand hebben om mee te praten om iets nieuws over onszelf te leren en van buitenaf te kijken. Misschien zullen we dankzij versterkend leren een soort entiteit buiten onszelf creëren. Het zal niet beperkt worden door ons brein en bewustzijn en zal in staat zijn om een persoon nieuwe antwoorden en betekenissen te geven.”

Waarom de wijdverbreide implementatie van RL nog steeds beperkt is?

Ondanks de vooruitgang die wetenschappers hebben geboekt, is de praktische toepassing van RL nog steeds beperkt. Het systeem heeft veel tijd nodig om te leren en maakt veel fouten, dus het overal implementeren van het algoritme is moeilijk en onrendabel.

“De agent heeft meer herhalingen nodig, dus het procesleren duurt behoorlijk lang, - legt Alexander Grishin uit - Bovendien is het niet genoeg voor AI om de beste actie uit te voeren. Hij moet de omgeving verkennen, want achter de momenteel onaantrekkelijke bewegingen kan een grote beloning schuilgaan. De hele logica van versterkend leren komt neer op het feit dat AI leert kortetermijnvoordelen op te offeren voor succes op lange termijn. Om dit te doen, moet je vooruit denken en mogelijke scenario's voor de ontwikkeling van evenementen berekenen. Als de agent bijvoorbeeld de ridder opgeeft om de koningin te vangen, zullen de wetenschappers heel blij zijn.”

De taak van wetenschappers is ervoor te zorgen dat AI groeitleertempo en verbeterd analysevermogen. Maar één alledaags probleem staat snelle vooruitgang in de weg: er is een tekort aan personeel in R&D-laboratoria en IT-bedrijven. Universiteiten creëren laboratoria en onderzoekscentra, technologiegiganten openen gespecialiseerde cursussen.

“Onderzoek nu naar machine learningzeer veel gevraagd. De industrie ontwikkelt zich snel en het personeelstekort neemt elke dag toe”, zegt Alexey Shpilman. “Specialisten hebben een grote kans om betrokken te raken bij processen die de wereld onherkenbaar zullen veranderen. Veel interessant werk. Nu staan we helemaal aan het begin van de weg, maar we hebben al goede resultaten geboekt. Kun je je voorstellen welke vooruitzichten er voor de mensheid zullen ontstaan door het gebruik van RL?

Lees verder:

De ruimtesonde vloog 200 km van Mercurius. Kijk wat hij zag

Wetenschappers ontdekken hoe vitamines de incidentie van kanker beïnvloeden

Chinese gedachtenlezende helm luidt alarm wanneer iemand porno-inhoud ziet

Geek Tech Online

Alles over technologie en gadgets

Je eigen leraar: hoe algoritmen leren zonder menselijke hulp en drones beter maken

Hoe AI leert zonder mentor

Op welke gebieden gaat AI mensen helpen

Hoe digitale tweelingen nuttig zullen zijn voor de mensheid

Waarom de wijdverbreide implementatie van RL nog steeds beperkt is?