Comment l'intelligence artificielle génère des images. L'ingénieur ML explique

Les réseaux antagonistes génératifs et leurs lacunes

Il y a seulement quelques années, les modèles les plus modernes de ces

les tâches étaient considérées comme génératives-adversativesles réseaux de neurones (réseaux contradictoires génératifs ou GAN), proposés en 2014 par Goodfellow et al et qui ont été considérablement améliorés au cours des neuf dernières années. Par exemple, le modèle StyleGAN 3 2021 préserve avec précision les détails du visage même avec des décalages et des rotations, tandis que ses prédécesseurs génèrent dans ce cas des détails « bruyants », comme les cheveux, la barbe ou les motifs vestimentaires. Les professionnels et les passionnés se sont émerveillés de la capacité des GAN à générer des photos de personnes, d'animaux ou d'appartements inexistants.

Cependant, en raison de la nature compétitiveLes modèles GAN sont très instables lors de la formation et ne présentent pas une très grande variété de types d'images lorsqu'ils sont générés. De plus, ils sont peu applicables dans la tâche de génération d'images à partir de texte, bien que des exemples existent.

Résultats de la génération d'images par le modèle StyleGAN 3

Le boom des modèles de diffusion

Les modèles de diffusion, au contraire, ontune variabilité suffisante des images générées et sont assez stables. Leur principal inconvénient est la vitesse d'apprentissage et de génération. Des dizaines, voire des centaines de cartes vidéo sont nécessaires pour former un modèle, et générer une image à l'aide d'un modèle déjà formé prend plusieurs secondes, contrairement au GAN, où le décompte passe à des dizaines de millisecondes.

La génération résulte du modèle de diffusion de Ho et al

Le boom autour des modèles de diffusion est alimenté par la sortiegrands modèles génératifs texte-image. De nombreux lecteurs ont sûrement vu les résultats générés par DALL·E 2, MidJourney, Imagen ou Stable Diffusion. Certains artistes et illustrateurs craignent que les réseaux de neurones ne leur enlèvent leur travail, tandis que d'autres pensent que cela ne fera qu'aider le processus créatif. Les programmeurs et les artistes maîtrisent l'ingénierie rapide - l'art de sélectionner du texte pour obtenir des résultats de génération plus précis - et partagent des demandes intéressantes et des résultats non moins intéressants.

Invasion extraterrestre Lofi pour se détendre et étudier (réseau neuronal Midjourney) 

Peinture du XVIIe siècle des Beatles (Modèle Stable Diffusion 2.1)

Un fruit du dragon portant une ceinture de karaté dans la neige (modèle Imagen)

Comment fonctionnent les modèles de diffusion ?

Les modèles de diffusion sont des modèles itératifs quiaccepter le bruit aléatoire en entrée. Pour commencer, considérons le modèle de diffusion le plus basique, DDPM (Denoising Diffusion Probabilistic Model), présenté par Ho et al. Ce modèle est formé étape par étape sur un échantillon de centaines de milliers d'images, où un bruit aléatoire d'une force connue est appliqué à l'image de l'échantillon à chaque étape, et le modèle apprend à inverser ce bruit, améliorant ainsi la qualité de l'image. Si nous appliquons de manière itérative le modèle formé de cette manière à une image de bruit complètement aléatoire, en inversant le bruit "faible" à chaque étape, le modèle peut générer une image complètement nouvelle, en se débarrassant progressivement du bruit aléatoire - en utilisant la rétrodiffusion.

Illustration du processus de diffusion de base (extrait du tutoriel CVPR 2022)

Bruit aléatoire à partir duquel est généréL'image peut être combinée avec une condition - une exigence de résultat, exprimée dans un texte ou un autre exemple d'image. Tout d'abord, regardons un exemple tiré de l'article SDEdit, où l'utilisateur indique au réseau neuronal un dessin composé de grands traits. Ce dessin est encore plus bruyant au point qu'il ne peut pas être distingué, par exemple, d'une photographie bruitée, puis un processus itératif de rétrodiffusion est appliqué, qui reconstruit une image de haute qualité basée sur le dessin fourni.

Une illustration du processus de diffusion piloté par des motifs (extrait de l'article SDEdit)

Une autre façon d'orienter la génération vers l'objectif souhaitéle résultat est le conditionnement du modèle par le texte. Pour ce faire, des modèles de langage sont utilisés, entraînés sur des paires d'images et de légendes, capables de comprendre le sens des images et des textes en même temps. Un exemple d'un tel modèle est CLIP (Contrastive Language - Image Pre-training) publié par OpenAI. Ce modèle est capable de traduire des images et des textes dans un espace vectoriel latent commun (où un vecteur n'est qu'une colonne de certaines valeurs). Dans cet espace, il devient par exemple possible de trouver les images les plus proches d'une requête textuelle, puisqu'il ne s'agit que d'une opération algébrique sur des vecteurs.

Modèle de diffusion latente,introduit en 2021 conditionne un modèle sur un espace vectoriel de textes pour générer des images à partir de bruit directionnel. Ce modèle utilise les propriétés de l'espace latent commun des textes et des images. Stable Diffusion, Imagen et d'autres grands réseaux de neurones texte-image fonctionnent sur ce principe.

Une autre technique importante qui améliore la qualitéLa génération utilisée dans la formation des modèles de diffusion conditionnée est le guide sans classificateur. En termes simples, plus la valeur du paramètre de guidage libre du classificateur est élevée, plus le résultat ressemble à une requête textuelle, ce qui se traduit souvent par moins de variabilité dans les résultats.

Problèmes des modèles de diffusion

Bien sûr, les modèles de diffusion ne sont passolution universelle pour le problème de la génération d'images. Ils sont toujours soumis aux mêmes problèmes que les GAN - à première vue, les images réelles présentent des inconvénients importants - les personnes générées peuvent avoir plus de cinq doigts ou 32 dents. De plus, ces modèles sont assez mauvais pour générer du texte sur les images et inventent même leur propre "langage".

Les artistes blâment Midjourney et Stability AI(la société derrière Stable Diffusion) pour violation du droit d'auteur lors de la préparation de données de formation - ils affirment que les sociétés ont téléchargé des images depuis Internet sans le consentement des artistes ni une compensation appropriée. On craint également de plus en plus que les réseaux génératifs, y compris Stable Diffusion, renforcent les stéréotypes négatifs sur la race, le sexe et d'autres problèmes sociaux, car ils sont formés à partir de données biaisées obtenues sur Internet.

L'histoire d'Adam et Eve, Noé et Zeus dans le style de DC Comics (modèle DALL·E 2) 

Comment essayer gratuitement

Contrairement à de nombreux développements antérieursdomaines de la vision par ordinateur qui étaient souvent accessibles uniquement aux programmeurs, les nouvelles technologies dans le domaine des réseaux de diffusion peuvent souvent être essayées par tout le monde. La tendance générale vers les logiciels open source et la publication de versions de démonstration de réseaux de neurones permet à des startups comme Hugging Face d'agréger de nombreuses versions de modèles, par exemple Stable Diffusion 2.1. Ils développent également la bibliothèque diffusers, conçue pour simplifier l'utilisation des modèles dans le code.

Le service Google Colab vous permet d'exécuter du code surGPU et TPU, de nombreux passionnés l'utilisent pour publier leurs versions du modèle, par exemple le modèle Disco Diffusion Warp, capable de changer le style de la vidéo.

Il existe également des interfaces pratiques pour les modèles.Ainsi, le réseau de neurones MidJourney dispose d'une version d'essai gratuite pour plusieurs dizaines de générations, ce qui est suffisant pour essayer des modèles texte-image. OpenAI fournit également un accès d'essai au modèle DALL·E 2.

Quelle est la prochaine

Nous pouvons affirmer avec certitude que nous vivons un âge d’orl’ère de la génération d’images par réseau neuronal. La communauté attend avec impatience les futurs produits de Google, qui a publié le modèle de diffusion privée Imagen et un grand nombre d'articles sur l'édition et la génération d'images, y compris l'utilisation d'autres technologies d'intelligence artificielle.

De nouvelles startups émergent dans le domaine de la création etune retouche d'images qui rivalise avec succès avec des géants comme OpenAI ou Google. De nouveaux articles sur les modèles de diffusion sont publiés presque chaque semaine et la portée de leur application aujourd'hui ne se limite pas aux tâches répertoriées de vision par ordinateur 2D : ils sont utilisés dans les tâches d'imagerie médicale, la génération de vidéos et de texte 3D.

Lire la suite:

Le mystère des rayures rouges sur le satellite de Jupiter est révélé

Trouvé planète "impossible". Elle défie la science moderne

De mystérieux "nids d'abeilles" hexagonaux dans les déserts de sel ont trouvé une explication