Tu propio maestro: cómo los algoritmos aprenden sin ayuda humana y hacen mejores a los drones

Los vehículos no tripulados, los gemelos digitales y el control automático de las telecomunicaciones no son

predicciones de escritores de ciencia ficción, y yaFuturo cercano. Lo acercan los científicos que se dedican a la inteligencia artificial aplicada y la investigación en el campo del aprendizaje por refuerzo. Hi-Tech habló sobre el futuro de la tecnología con Oleg Svidchenko, Alexander Grishin y Alexey Shpilman, ganadores del Premio Segalovich anual.

Cómo aprende la IA sin un mentor

Aprendizaje reforzado,RL) asume que la propia IA interactúa con un determinado entorno, por ejemplo, un tablero para el juego Go o el mundo exterior si el robot se mueve a lo largo de él. El dispositivo necesita identificar patrones comunes y enfocarse en ellos al realizar tareas. Y cuando se aprende con un "profesor", se necesita una persona que debe indicar la acción correcta sobre la que entrenará la IA.

“La esencia de RL es que la máquina o, como decimos,agente, aprende en el modo de la práctica constante”, señala Oleg Svidchenko, laureado del Premio de Ciencias Yandex. - AI se pone en ciertas condiciones y "hablar" - actuar. Esto es similar a la situación cuando un ratón va en busca de queso en un laberinto. Habiendo dado un giro en la dirección equivocada, el animal choca contra la pared, retrocede, vuelve a intentarlo, y así sucesivamente. En el caso del aprendizaje por refuerzo, se premian los pasos correctos. Cuanto más correcta sea la acción, más puntos recibirá la IA. Si la elección resultó ser incorrecta, el agente pierde puntos. Durante el entrenamiento, la máquina recuerda qué combinación de acciones fue más rentable y la usará la próxima vez”.

La búsqueda independiente de una solución permite al agentetarde o temprano superar al hombre. Así lo demostró, por ejemplo, el algoritmo MuZero de DeepMind, que aprendió a jugar a decenas de viejos videojuegos de Atari, ajedrez y juegos de mesa tipo Go. Para crearlo, utilizaron desarrollos anteriores de la empresa: por ejemplo, AlphaGo, gracias al cual fue posible vencer al campeón de Go Lee Sedol, y AlphaZero, que se usa en el ajedrez. El algoritmo mejorado extrae más información de menos datos; ahora necesita la mitad de los pasos de entrenamiento.

Los algoritmos de aprendizaje por refuerzo puedenútil en una variedad de industrias. Por ejemplo, en medicina, para organizar un tratamiento dinámico personalizado, en la industria del entretenimiento, para pruebas automáticas de juegos de computadora, o en aviación, para el control autónomo de un globo estratosférico.

En qué áreas la IA acudirá en ayuda de las personas

Digitalización del retail: tiendas totalmente automatizadas

Se implementa el primer aprendizaje automático en las industriasdonde se depura el proceso de recolección y digitalización de grandes cantidades de datos. Por ejemplo, en el comercio minorista, toda la información pasa por las cajas registradoras, lo que significa que la IA tiene algo con lo que trabajar. Según Alexey Shpilman, el uso de algoritmos de IA permitirá crear tiendas automatizadas en todas partes, donde todos los procesos se llevarán a cabo sin intervención humana.

Este formato se probó en 2016.empresa amazónica. El comprador toma el carrito, recoge los productos en él y simplemente se va; el dinero de la compra se debita automáticamente de la tarjeta. En Rusia, Azbuka Vkusa desarrolló un proyecto similar.

"El comprador toma el carro, recoge los productos en él y simplemente se va; el dinero de la compra se debita automáticamente de la tarjeta"

Gestión de telecomunicaciones: identificación de fallos en la red

Gracias al aprendizaje por refuerzoLos avances tecnológicos pueden ocurrir en la gestión de varias redes: telecomunicaciones, redes de calefacción, industria de energía eléctrica. Muchos procesos aquí son bastante fáciles de robotizar, ya que no hay mucha interacción con las personas.

La automatización conducirá a la creación de sistemas quetomará decisiones más informadas y optimizará el consumo de energía. Por ejemplo, basándose en algoritmos RL, se está desarrollando un controlador HVAC (acrónimo de Heating, Ventilation, & Air Conditioning - Calefacción, ventilación y aire acondicionado): este es un sistema de control de ventilación y temperatura ambiente. El uso de esta tecnología en las empresas ayudará a ahorrar el consumo de energía y reducir las emisiones de carbono.

Vehículos no tripulados: tecnología de prueba y legislación

Otra área que está esperando un gran avance gracias aaprendizaje por refuerzo - transporte. Ya en la actualidad, se pueden encontrar vehículos no tripulados y robots de reparto en las calles. A pesar de los avances tecnológicos en la industria, los analistas de McKinsey predicen que los drones no se generalizarán hasta 2030 como muy pronto. La implementación se complica por la necesidad de desarrollar regulaciones. En Singapur y Estados Unidos, el transporte automatizado ya está en pleno apogeo a lo largo de las autopistas, y recientemente apareció el permiso para probar un taxi no tripulado en Rusia.

“La automatización casi siempre mejoraseguridad, pero la gente recibe con miedo la introducción de este tipo de tecnologías”, está seguro Oleg Svidchenko. — Si se sustituye todo el transporte por vehículos Tesla no tripulados, el número de accidentes en las carreteras se reducirá varias veces. Pero cada accidente planteará muchas preguntas. No podemos decir con certeza, como en el caso de una persona, qué causó el accidente. Y la gente tiene miedo de lo desconocido”.

“Otra área que espera un gran avance gracias al aprendizaje por refuerzo es el transporte”

Cómo los gemelos digitales serán útiles para la humanidad

Los algoritmos de aprendizaje por refuerzo lo han hecho posiblecree gemelos digitales: prototipos virtuales de objetos, procesos e incluso personas que contienen las mismas propiedades y características que los originales. Las empresas industriales utilizan esta tecnología, por ejemplo, para comprobar si todos los procesos están correctamente ajustados antes de poner en marcha un nuevo transportador. Por supuesto, puede insertar inmediatamente el enchufe en el tomacorriente, pero si ocurre una falla, se necesitará tiempo y recursos para solucionarlo. Por lo tanto, el transportador se inicia primero en una computadora.

Todo es mucho mejor con gemelos digitales humanosmás difícil, porque un organismo vivo es un sistema más complejo. Y, sin embargo, los científicos continúan dominando la tecnología, creando copias virtuales tanto de órganos individuales como de todo el organismo. Por ejemplo, un hospital de Boston utiliza un gemelo digital del corazón para planificar cirugías. En el futuro, esto permitirá probar métodos de tratamiento en un paciente virtual, predecir enfermedades, y bien podría pretender ser una revolución en la medicina.

“El desarrollo de la IA, incluido el RL, podría conducir ael hecho de que las personas comenzarán a comprenderse mejor a sí mismas”, sugiere Aleksey Shpilman. “El hombre es un sistema cerrado, porque usamos nuestro propio cerebro para el autoconocimiento. Pero, ¿es esta herramienta suficiente para nosotros? Incluso en psicología se necesitan dos personas para la reflexión, y estamos encerrados en nosotros mismos. Globalmente, en el contexto del Universo, la humanidad sigue sola, lo que significa que no tenemos con quién hablar para aprender algo nuevo sobre nosotros mismos y mirar desde afuera. Quizás, gracias al aprendizaje por refuerzo, crearemos algún tipo de entidad fuera de nosotros mismos. No estará limitado por nuestro cerebro y conciencia y podrá dar a una persona nuevas respuestas y significados”.

Por qué la implementación generalizada de RL todavía es limitada

A pesar de los avances que han logrado los científicos, la aplicación práctica de RL aún es limitada. El sistema tarda mucho en aprender y comete muchos errores, por lo que implementar el algoritmo en todas partes es difícil y no rentable.

“El agente necesita más repeticiones, por lo que el procesoel aprendizaje lleva bastante tiempo, - explica Alexander Grishin - Además, no es suficiente que la IA realice la mejor acción. Necesita explorar el entorno, ya que una gran recompensa puede estar escondida detrás de movimientos actualmente poco atractivos. Toda la lógica del aprendizaje por refuerzo se reduce al hecho de que la IA aprende a sacrificar los beneficios a corto plazo por el éxito a largo plazo. Para hacer esto, debe pensar en el futuro y calcular posibles escenarios para el desarrollo de eventos. Por ejemplo, cuando el agente entrega el caballo para capturar a la reina, los científicos estarán muy felices”.

La tarea de los científicos es hacer que la IA crezcaritmo de aprendizaje y mayor capacidad de análisis. Pero un problema mundano impide un progreso rápido: hay escasez de personal en los laboratorios de I+D y en las empresas de TI. Las universidades están creando laboratorios y centros de investigación, los gigantes tecnológicos están abriendo cursos especializados.

“Investigar en aprendizaje automático ahoramuy solicitado. La industria se está desarrollando rápidamente y la escasez de personal aumenta cada día”, dice Alexey Shpilman. “Los especialistas tienen una gran oportunidad de involucrarse en procesos que cambiarán el mundo más allá del reconocimiento. Un montón de trabajo interesante. Ahora estamos al comienzo del camino, pero ya hemos logrado buenos resultados. ¿Te imaginas qué perspectivas se abrirán para la humanidad a través del uso de RL?

Lee mas:

La sonda espacial voló a 200 km de Mercurio. Mira lo que vio

Científicos descubren cómo las vitaminas afectan la incidencia de cáncer

El casco chino que lee la mente hace sonar la alarma cuando una persona ve contenido pornográfico