Redes adversarias generativas y sus deficiencias
Hace apenas unos años, los modelos más modernos de estos
Sin embargo, debido a la naturaleza competitivaLos modelos GAN son muy inestables en el entrenamiento y no muestran una gran variedad de tipos de imágenes cuando se generan. Además, son poco aplicables en la tarea de generar imágenes a partir de texto, aunque existen ejemplos de ello.
Resultados de la generación de imágenes por el modelo StyleGAN 3
El auge de los modelos de difusión
Los modelos de difusión, por el contrario, tienensuficiente variabilidad de las imágenes generadas y son bastante estables. Su principal desventaja es la velocidad de aprendizaje y generación. Se necesitan docenas o incluso cientos de tarjetas de video para entrenar un modelo, y generar una imagen utilizando un modelo ya entrenado toma varios segundos, a diferencia de GAN, donde el conteo llega a decenas de milisegundos.
Resultados de generación del modelo de difusión de Ho et al.
El auge de los modelos de difusión está alimentado por la salidagrandes modelos generativos de texto a imagen. Seguro que muchos lectores han visto los resultados que generan DALL·E 2, MidJourney, Imagen o Stable Diffusion. A algunos artistas e ilustradores les preocupa que las redes neuronales les quiten su trabajo, mientras que otros creen que esto solo ayudará en el proceso creativo. Los programadores y artistas dominan la ingeniería rápida, el arte de seleccionar texto para obtener resultados de generación más precisos, y comparten solicitudes interesantes y resultados no menos interesantes.
Invasión alienígena Lofi para relajarse y estudiar (red neuronal Midjourney)
Pintura del siglo XVII de The Beatles (Model Stable Diffusion 2.1)
Una fruta del dragón con cinturón de karate en la nieve (Imagen modelo)
¿Cómo funcionan los modelos de difusión?
Los modelos de difusión son modelos iterativos queaceptar ruido aleatorio como entrada. Para comenzar, considere el modelo de difusión más básico, DDPM (Denoising Diffusion Probabilistic Model), presentado por Ho et al. Este modelo se entrena paso a paso en una muestra de cientos de miles de imágenes, donde se aplica ruido aleatorio de cierta intensidad conocida a la imagen de la muestra en cada paso, y el modelo aprende a invertir este ruido, mejorando así la calidad de la imagen. Si aplicamos iterativamente el modelo entrenado de esta manera a una imagen de ruido completamente aleatorio, invirtiendo el ruido "débil" en cada paso, el modelo puede generar una imagen completamente nueva, eliminando gradualmente el ruido aleatorio, utilizando la retrodifusión.
Ilustración del proceso de difusión básico (del tutorial CVPR 2022)
Ruido aleatorio a partir del cual se genera.La imagen se puede combinar con una condición: un requisito para un resultado, expresado en texto u otra imagen de ejemplo. Primero, veamos un ejemplo del artículo de SDEdit, donde el usuario indica a la red neuronal un dibujo que consta de trazos grandes. Este dibujo es aún más ruidoso hasta el punto de que no se puede distinguir de, por ejemplo, una fotografía ruidosa, y luego se aplica un proceso iterativo de retrodifusión, que reconstruye una imagen de alta calidad basada en el dibujo proporcionado.
Una ilustración del proceso de difusión basado en patrones (del artículo de SDEdit)
Otra forma de encaminar la generación hacia lo deseadoel resultado es el condicionamiento del modelo por el texto. Para ello, se utilizan modelos de lenguaje, entrenados en pares de imágenes y leyendas a las mismas, que son capaces de comprender el significado de imágenes y textos al mismo tiempo. Un ejemplo de tal modelo es CLIP (Lenguaje Contrastivo - Entrenamiento Previo a la Imagen) lanzado por OpenAI. Este modelo puede traducir imágenes y textos a un espacio vectorial latente común (donde un vector es solo una columna de algunos valores). En este espacio se vuelve, por ejemplo, posible encontrar las imágenes más cercanas a alguna consulta de texto, ya que esto es solo una operación algebraica sobre vectores.
modelo de difusión latente,introducido en 2021 condiciona un modelo sobre un espacio vectorial de textos para generar imágenes a partir de ruido direccional. Este modelo utiliza las propiedades del espacio latente común de textos e imágenes. Stable Diffusion, Imagen y otras grandes redes neuronales de texto a imagen funcionan según este principio.
Otra técnica importante que mejora la calidadLa generación utilizada en el entrenamiento de modelos de difusión condicionada es la guía libre del clasificador. En términos simples, cuanto mayor sea el valor del parámetro de orientación libre del clasificador, más se parecerá el resultado a una consulta de texto, lo que a menudo se traduce en una menor variabilidad en los resultados.
Problemas de los modelos de difusión
Por supuesto, los modelos de difusión no sonsolución universal para el problema de la generación de imágenes. Todavía están sujetos a los mismos problemas que las GAN: a primera vista, las imágenes reales tienen inconvenientes significativos: las personas generadas pueden tener más de cinco dedos o 32 dientes. Además, estos modelos son bastante malos para generar texto en imágenes e incluso inventan su propio "lenguaje".
Los artistas culpan a la IA a mitad del viaje y a la estabilidad(la empresa detrás de Stable Diffusion) por infracción de derechos de autor en la preparación de datos de formación: afirman que las empresas descargaron imágenes de Internet sin el consentimiento de los artistas ni una compensación adecuada. También existe una creciente preocupación de que las redes generativas, incluida Stable Diffusion, refuercen estereotipos negativos sobre raza, género y otras cuestiones sociales porque están entrenadas con datos sesgados obtenidos de Internet.
La historia de Adán y Eva, Noé y Zeus al estilo DC Comics (modelo DALL·E 2)
Cómo probar gratis
A diferencia de muchos desarrollos anteriores enEn áreas de la visión por computadora que a menudo solo eran accesibles para los programadores, las nuevas tecnologías en el campo de las redes de difusión a menudo pueden ser probadas por todos. La tendencia general hacia el software de código abierto y la publicación de versiones de demostración de redes neuronales permite a empresas emergentes como Hugging Face agregar muchas versiones de modelos, por ejemplo, Stable Diffusion 2.1. También están desarrollando la biblioteca de difusores, que está diseñada para simplificar el uso de modelos en el código.
El servicio Google Colab le permite ejecutar código enGPU y TPU, por lo que muchos entusiastas lo utilizan para publicar sus versiones del modelo, por ejemplo, el modelo Disco Diffusion Warp, que es capaz de cambiar el estilo del vídeo.
También hay interfaces convenientes para los modelos.Entonces, la red neuronal MidJourney tiene una versión de prueba gratuita durante varias docenas de generaciones, lo cual es suficiente para probar modelos de texto a imagen. OpenAI también proporciona acceso de prueba al modelo DALL·E 2.
Que sigue
Podemos decir con seguridad que estamos viviendo una época dorada.La era de la generación de imágenes de redes neuronales. La comunidad espera ansiosamente futuros productos de Google, que ha lanzado el modelo de difusión privada Imagen y una gran cantidad de artículos sobre edición y generación de imágenes, incluido el uso de otras tecnologías de inteligencia artificial.
Están surgiendo nuevas empresas en el campo de la creación yedición de imágenes que compite con éxito con gigantes como OpenAI o Google. Casi semanalmente se publican nuevos artículos sobre modelos de difusión, y el alcance de su aplicación hoy en día no se limita a las tareas enumeradas de visión por computadora en 2D: se utilizan en tareas de imágenes médicas, generación de videos y texto en 3D.
Lee mas:
Se revela el misterio de las rayas rojas en el satélite de Júpiter
Encontrado planeta "imposible". Ella desafía la ciencia moderna
Misteriosos "panales" hexagonales en desiertos de sal encontraron una explicación