Il tuo insegnante: come gli algoritmi imparano senza l'aiuto umano e migliorano i droni

I veicoli senza pilota, i gemelli digitali e il controllo automatico delle telecomunicazioni non lo sono

previsioni degli scrittori di fantascienza, e giàfuturo prevedibile. Ad avvicinarlo sono gli scienziati impegnati nell’intelligenza artificiale applicata e nella ricerca nel campo dell’apprendimento per rinforzo. Hi-Tech ha parlato del futuro della tecnologia con Oleg Svidchenko, Alexander Grishin e Alexey Shpilman, vincitori dell'annuale Premio Segalovich.

Come l'IA impara senza un mentore

Insegnamento rafforzativo,RL) presuppone che l'IA stessa interagisca con un determinato ambiente, ad esempio una tavola per il gioco Go o il mondo esterno se il robot si muove lungo di essa. Il dispositivo deve identificare schemi comuni e concentrarsi su di essi durante l'esecuzione delle attività. E quando si impara con un "insegnante" serve una persona che deve indicare l'azione corretta su cui si allenerà l'IA.

“L'essenza di RL è che la macchina o, come si dice,agente, impara in modalità pratica costante", osserva Oleg Svidchenko, vincitore dello Yandex Science Prize. - L'IA è posta in determinate condizioni e "parla" - agisci. Questo è simile alla situazione in cui un topo va in cerca di formaggio in un labirinto. Dopo aver fatto una svolta nella direzione sbagliata, l'animale va a sbattere contro il muro, torna indietro, riprova e così via. Nel caso dell'apprendimento per rinforzo, vengono premiati i passi corretti. Più l'azione è corretta, più punti riceverà l'IA. Se la scelta si è rivelata errata, l'agente perde punti. Durante l'allenamento, la macchina ricorda quale combinazione di azioni è stata più redditizia e la prossima volta la utilizzerà".

La ricerca indipendente di una soluzione consente all'agenteprima o poi superare l'uomo. Ciò è stato dimostrato, ad esempio, dall'algoritmo MuZero di DeepMind, che ha imparato a giocare a dozzine di vecchi videogiochi Atari, scacchi e giochi da tavolo di tipo Go. Per crearlo, hanno utilizzato precedenti sviluppi dell'azienda: ad esempio AlphaGo, grazie al quale è stato possibile battere il campione di Go Lee Sedol, e AlphaZero, utilizzato negli scacchi. L'algoritmo migliorato estrae più informazioni da meno dati: ora richiede metà dei passaggi di addestramento.

Gli algoritmi di apprendimento per rinforzo possonoutile in diversi settori. Ad esempio, in medicina - per l'organizzazione di trattamenti dinamici personalizzati, nell'industria dell'intrattenimento - per il test automatico di giochi per computer o in aviazione - per il controllo autonomo di un pallone stratosferico.

In quali aree l'IA verrà in aiuto delle persone

Digitalizzazione del retail: negozi completamente automatizzati

Il primo a implementare l'apprendimento automatico nelle industriedove viene eseguito il debug del processo di raccolta e digitalizzazione di grandi quantità di dati. Ad esempio, nella vendita al dettaglio, tutte le informazioni passano attraverso i registratori di cassa, il che significa che l'IA ha qualcosa con cui lavorare. Secondo Alexey Shpilman, l'uso di algoritmi di intelligenza artificiale consentirà di creare negozi automatizzati ovunque, dove tutti i processi si svolgeranno senza l'intervento umano.

Questo formato è stato testato nel 2016.Azienda Amazon. L'acquirente prende il carrello, preleva la merce e se ne va: il denaro per l'acquisto viene addebitato automaticamente sulla carta. In Russia, un progetto simile è stato sviluppato da Azbuka Vkusa.

"L'acquirente prende il carrello, preleva la merce e se ne va - il denaro per l'acquisto viene addebitato automaticamente sulla carta"

Gestione delle telecomunicazioni: identificazione dei guasti della rete

Grazie all'apprendimento per rinforzoinnovazioni tecnologiche possono verificarsi nella gestione di varie reti: telecomunicazioni, reti di riscaldamento, industria dell'energia elettrica. Molti processi qui sono abbastanza facili da robotizzare, poiché non c'è molta interazione con le persone.

L'automazione porterà alla creazione di sistemi cheprenderà decisioni più informate e ottimizzerà il consumo energetico. Ad esempio, sulla base degli algoritmi RL, è in fase di sviluppo un controller HVAC (acronimo di Heating, Ventilation, & Air Conditioning - Riscaldamento, ventilazione e condizionamento dell'aria): si tratta di un sistema di controllo della temperatura ambiente e della ventilazione. L’utilizzo di questa tecnologia nelle aziende aiuterà sia a risparmiare sul consumo energetico che a ridurre le emissioni di carbonio.

Veicoli senza pilota: tecnologia di prova e legislazione

Un'altra area che aspetta una svolta grazie aapprendimento per rinforzo - trasporto. Già oggi per le strade si possono trovare veicoli senza pilota e robot per le consegne. Nonostante i progressi tecnologici nel settore, gli analisti di McKinsey prevedono che i droni non diventeranno mainstream fino al 2030 al più presto. L'attuazione è complicata dalla necessità di sviluppare regolamenti. A Singapore e negli Stati Uniti, il trasporto automatizzato è già in pieno svolgimento lungo le autostrade e recentemente è apparso il permesso per testare un taxi senza pilota in Russia.

“L’automazione migliora quasi sempresicurezza, ma la gente accoglie con preoccupazione l’introduzione di tali tecnologie”, ne è sicuro Oleg Svidchenko. — Se si sostituissero tutti i trasporti con Tesla senza equipaggio, il numero di incidenti sulle strade diminuirebbe più volte. Ma ogni incidente solleverà molte domande. Non possiamo dire con certezza, come nel caso di una persona, cosa abbia causato l'incidente. E la gente ha paura di questo sconosciuto”.

"Un'altra area che attende una svolta grazie all'apprendimento per rinforzo è quella dei trasporti"

Come i gemelli digitali saranno utili all'umanità

Gli algoritmi di apprendimento per rinforzo lo hanno reso possibilecreare gemelli digitali: prototipi virtuali di oggetti, processi e persino persone che contengono le stesse proprietà e caratteristiche degli originali. Le imprese industriali utilizzano questa tecnologia, ad esempio, per verificare se tutti i processi sono adeguati prima di lanciare un nuovo trasportatore. Naturalmente, puoi inserire immediatamente la spina nella presa, ma se si verifica un guasto, ci vorranno tempo e risorse per risolverlo. Pertanto, il trasportatore viene prima avviato su un computer. 

Tutto è molto meglio con i gemelli digitali umanipiù difficile, perché un organismo vivente è un sistema più complesso. Eppure, gli scienziati continuano a padroneggiare la tecnologia, creando copie virtuali sia dei singoli organi che dell'intero organismo. Ad esempio, un ospedale di Boston utilizza un gemello digitale del cuore per pianificare gli interventi chirurgici. In futuro, ciò consentirà di testare metodi di trattamento su un paziente virtuale, predire le malattie e potrebbe benissimo affermare di essere una rivoluzione in medicina.

“Lo sviluppo dell'IA, incluso RL, potrebbe portare ail fatto che le persone inizieranno a capirsi meglio”, suggerisce Aleksey Shpilman. “L'uomo è un sistema chiuso, perché usiamo il nostro cervello per la conoscenza di noi stessi. Ma questo strumento ci basta? Anche in psicologia servono due persone per riflettere, e siamo chiusi in noi stessi. A livello globale, nel contesto dell'Universo, l'umanità è ancora sola, il che significa che non abbiamo nessuno con cui parlare per imparare qualcosa di nuovo su noi stessi e guardare dall'esterno. Forse, grazie all'apprendimento per rinforzo, creeremo una sorta di entità al di fuori di noi stessi. Non sarà limitato dal nostro cervello e dalla nostra coscienza e sarà in grado di dare a una persona nuove risposte e significati”.

Perché l'implementazione diffusa di RL è ancora limitata

Nonostante i progressi compiuti dagli scienziati, l’applicazione pratica della RL è ancora limitata. Il sistema impiega molto tempo per apprendere e commette molti errori, quindi implementare l’algoritmo ovunque è difficile e non redditizio.

“L'agente ha bisogno di più ripetizioni, quindi il processol'apprendimento richiede parecchio tempo, - spiega Alexander Grishin - Inoltre, non è sufficiente che l'IA esegua l'azione migliore. Ha bisogno di esplorare l'ambiente, poiché una grande ricompensa potrebbe essere nascosta dietro mosse attualmente poco attraenti. L'intera logica dell'apprendimento per rinforzo si riduce al fatto che l'IA impara a sacrificare i benefici a breve termine per il successo a lungo termine. Per fare ciò, è necessario pensare in anticipo e calcolare possibili scenari per lo sviluppo degli eventi. Ad esempio, quando l'agente rinuncia al cavaliere per catturare la regina, gli scienziati saranno molto felici".

Il compito degli scienziati è garantire che l’intelligenza artificiale crescaritmo di apprendimento e una migliore capacità di analisi. Ma un problema banale impedisce un rapido progresso: c’è carenza di personale nei laboratori di ricerca e sviluppo e nelle società IT. Le università stanno creando laboratori e centri di ricerca, i colossi della tecnologia stanno aprendo corsi specializzati.

“Ricerca nell'apprendimento automatico oramolto richiesto. Il settore si sta sviluppando rapidamente e la carenza di personale aumenta ogni giorno", afferma Alexey Shpilman. “Gli specialisti hanno una grande possibilità di essere coinvolti in processi che cambieranno il mondo in modo irriconoscibile. Tanti lavori interessanti. Ora siamo proprio all'inizio del percorso, ma abbiamo già ottenuto buoni risultati. Riesci a immaginare quali prospettive si apriranno per l'umanità attraverso l'uso di RL?

Leggi di più:

La sonda spaziale ha volato a 200 km da Mercurio. Guarda cosa ha visto

Gli scienziati scoprono come le vitamine influiscono sull'incidenza del cancro

Il casco cinese per la lettura della mente suona l'allarme quando una persona vede contenuti porno

Tecnologia geek in linea

Tutto sulla tecnologia e sui gadget

Il tuo insegnante: come gli algoritmi imparano senza l'aiuto umano e migliorano i droni

Come l'IA impara senza un mentore

In quali aree l'IA verrà in aiuto delle persone

Come i gemelli digitali saranno utili all'umanità

Perché l'implementazione diffusa di RL è ancora limitata