Votre propre professeur : comment les algorithmes apprennent sans aide humaine et améliorent les drones

Les véhicules sans pilote, les jumeaux numériques et le contrôle automatisé des télécommunications ne le sont pas

Il est approché par des scientifiques qui s’intéressent à l’intelligence artificielle appliquée et à la recherche dans le domaine de l’apprentissage par renforcement.Hitech a parlé de l’avenir de la technologie avec Oleg Svidchenko, Alexander Grishin et Alexei Shpilman, lauréats du prix annuel Segalovich.

Comment l'IA apprend sans mentor

Apprentissage par renforcement,RL) suppose que l'IA elle-même interagit avec un certain environnement - par exemple, un plateau pour le jeu Go ou le monde extérieur si le robot se déplace le long de celui-ci. L'appareil doit identifier les schémas communs et se concentrer sur eux lors de l'exécution de tâches. Et lors de l'apprentissage avec un "enseignant", vous avez besoin d'une personne qui doit indiquer l'action correcte sur laquelle l'IA s'entraînera.

"L'essence de RL est que la machine ou, comme on dit,agent, apprend sur le mode de la pratique constante », note Oleg Svidchenko, lauréat du prix scientifique Yandex. - L'IA est placée dans certaines conditions et "parle" - agit. Ceci est similaire à la situation où une souris part à la recherche de fromage dans un labyrinthe. Après avoir fait un virage dans la mauvaise direction, l'animal heurte le mur, revient, essaie à nouveau, etc. Dans le cas de l'apprentissage par renforcement, les étapes correctes sont récompensées. Plus l'action est correcte, plus l'IA recevra de points. Si le choix s'avère incorrect, l'agent perd des points. Pendant l'entraînement, la machine se souvient quelle combinaison d'actions était la plus rentable et la prochaine fois, elle l'utilisera. »

La recherche indépendante d'une solution permet à l'agenttôt ou tard dépasser l'homme. Cela a été montré, par exemple, par l'algorithme MuZero de DeepMind, qui a appris à jouer à des dizaines de vieux jeux vidéo Atari, d'échecs et de jeux de société de type Go. Pour le créer, ils ont utilisé les développements antérieurs de l'entreprise : par exemple, AlphaGo, grâce auquel il a été possible de battre le champion de Go Lee Sedol, et AlphaZero, qui est utilisé aux échecs. L'algorithme amélioré extrait plus d'informations à partir de moins de données - il a maintenant besoin de la moitié des étapes de formation.

Les algorithmes d'apprentissage par renforcement peuventutile dans une variété d'industries. Par exemple, en médecine - pour organiser un traitement dynamique personnalisé, dans l'industrie du divertissement - pour les tests automatiques de jeux informatiques, ou dans l'aviation - pour le contrôle autonome d'un ballon stratosphérique.

Dans quels domaines l'IA viendra en aide aux personnes

Digitalisation du retail : magasins entièrement automatisés

Le premier à mettre en œuvre l'apprentissage automatique dans les industriesoù le processus de collecte et de numérisation de grandes quantités de données est débogué. Par exemple, dans le commerce de détail, toutes les informations passent par les caisses enregistreuses, ce qui signifie que l'IA a quelque chose à faire. Selon Alexey Shpilman, l'utilisation d'algorithmes d'IA permettra de créer partout des magasins automatisés, où tous les processus se dérouleront sans intervention humaine.

Ce format a été testé en 2016.Société Amazone. L'acheteur prend le chariot, y prend les marchandises et part - l'argent pour l'achat est automatiquement débité de la carte. En Russie, un projet similaire a été développé par Azbuka Vkusa.

"L'acheteur prend le chariot, y prend les marchandises et part - l'argent pour l'achat est automatiquement débité de la carte"

Gestion des télécommunications : Détection des défaillances du réseau 

Grâce à l'apprentissage par renforcementdes ruptures technologiques peuvent intervenir dans la gestion des différents réseaux - télécommunications, réseaux de chaleur, industrie de l'énergie électrique. De nombreux processus ici sont assez faciles à robotiser, car il n'y a pas beaucoup d'interaction avec les gens.

L’automatisation conduira à des systèmes qui permettront de prendre de meilleures décisions et d’optimiser la consommation d’énergie.Par exemple, les algorithmes RL sont utilisés pour développer un contrôleur CVC (acronyme deEng. Le chauffage, la ventilation et la climatisation sont un système de contrôle de la température et de la ventilation d’une pièce.L’utilisation de cette technologie dans les entreprises permettra à la fois d’économiser de l’énergie et de réduire les émissions de carbone.

Véhicules sans pilote : technologie d'essai et législation

Un autre domaine qui attend une percée grâce àapprentissage par renforcement - transport. Déjà aujourd'hui, des véhicules sans pilote et des robots de livraison peuvent être trouvés dans les rues. Malgré les avancées technologiques dans l'industrie, les analystes de McKinsey prédisent que les drones ne deviendront pas courants avant 2030 au plus tôt. La mise en œuvre est compliquée par la nécessité d'élaborer des réglementations. À Singapour et aux États-Unis, le transport automatisé bat déjà son plein le long des autoroutes et une autorisation est récemment apparue pour tester un taxi sans pilote en Russie.

« L’automatisation augmente presque toujours le niveau de sécurité, mais l’introduction de ces technologies est accueillie par les gensavec appréhension », Oleg Svidchenko en est sûr, «  Si tous les moyens de transport sont remplacéssur les Tesla autonomes, le nombre d’accidents sur les routes va se multiplier par plusieurs.Mais chaque accident soulève de nombreuses questions. Nous ne pouvons pas dire sans équivoque, comme dans le cas d’une personne, ce qui a causé l’accident.Et les gens sont effrayés par cet inconnu.

"Un autre domaine qui attend une percée grâce à l'apprentissage par renforcement est le transport"

Comment les jumeaux numériques seront utiles à l'humanité

Les algorithmes d’apprentissage par renforcement ont permis de créer des jumeaux numériques, c’est-à-dire des prototypes virtuels d’objets, de processus et même de personnes qui contiennent desIl a les mêmes propriétés et caractéristiques que les originaux.Cette technologie est utilisée par les entreprises industrielles, par exemple, pour vérifier si tous les processus sont correctement débogués avant de lancer un nouveau convoyeur.Bien sûr, vous pouvez brancher la fiche dans la prise tout de suite, mais si cela se produitIl faudra du temps et des ressources pour y remédier.pré-exécuter sur l’ordinateur. 

Tout va bien mieux avec les jumeaux numériques humainsplus difficile, car un organisme vivant est un système plus complexe. Et pourtant, les scientifiques continuent de maîtriser la technologie, créant des copies virtuelles des organes individuels et de l'organisme entier. Par exemple, un hôpital de Boston utilise un jumeau numérique du cœur pour planifier des interventions chirurgicales. À l'avenir, cela permettra de tester des méthodes de traitement sur un patient virtuel, de prédire des maladies, et pourrait bien prétendre être une révolution dans la médecine.

"Le développement de l'IA, y compris RL, pourrait conduire àle fait que les gens commenceront à mieux se comprendre », suggère Aleksey Shpilman. "L'homme est un système fermé, car nous utilisons notre propre cerveau pour la connaissance de soi. Mais cet outil nous suffit-il ? Même en psychologie, il faut deux personnes pour la réflexion, et nous sommes renfermés sur nous-mêmes. Globalement, dans le contexte de l'Univers, l'humanité est encore seule, ce qui signifie que nous n'avons personne à qui parler pour apprendre quelque chose de nouveau sur nous-mêmes et regarder de l'extérieur. Peut-être, grâce à l'apprentissage par renforcement, créerons-nous une sorte d'entité extérieure à nous-mêmes. Il ne sera pas limité par notre cerveau et notre conscience et pourra donner à une personne de nouvelles réponses et significations.

Pourquoi la mise en œuvre généralisée du RL est encore limitée

Malgré les progrès réalisés par les scientifiques, l’application pratique de la RL est encore limitée.Le système prend beaucoup de temps à apprendre, fait beaucoup d’erreurs, il est donc difficile et peu rentable d’implémenter l’algorithme partout.

"L'agent a besoin de plus de répétitions, donc le processusl'apprentissage prend assez de temps, - explique Alexander Grishin - De plus, il ne suffit pas à l'IA d'effectuer la meilleure action. Il doit explorer l'environnement, car une grande récompense peut être cachée derrière des mouvements actuellement peu attrayants. Toute la logique de l'apprentissage par renforcement se résume au fait que l'IA apprend à sacrifier les avantages à court terme pour un succès à long terme. Pour ce faire, vous devez anticiper et calculer les scénarios possibles pour le développement des événements. Par exemple, lorsque l'agent abandonne le chevalier pour capturer la reine, les scientifiques seront très heureux.

La tâche des scientifiques est de s’assurer que l’IA augmente le rythme d’apprentissage et améliore sa capacité d’analyse.Mais il y a un problème banal qui nous empêche d’avancer rapidement : il y a une pénurie de personnel dans les laboratoires de R&D et les entreprises informatiques.Les universités créent des laboratoires et des centres de recherche, et les géants de la technologie ouvrent des cours spécialisés.

"La recherche en apprentissage automatique maintenanttrès demandé. L'industrie se développe rapidement et la pénurie de personnel augmente chaque jour », explique Alexey Shpilman. "Les spécialistes ont une grande chance de s'impliquer dans des processus qui changeront le monde au-delà de toute reconnaissance. Beaucoup de travail intéressant. Nous sommes maintenant au tout début du chemin, mais nous avons déjà obtenu de bons résultats. Pouvez-vous imaginer quelles perspectives s'ouvriront à l'humanité grâce à l'utilisation de RL ?

Lire la suite:

La sonde spatiale a volé à 200 km de Mercure. Regarde ce qu'il a vu

Les scientifiques découvrent comment les vitamines affectent l'incidence du cancer

Un casque de lecture de pensées chinois sonne l'alarme lorsqu'une personne voit du contenu porno