Cum generează inteligența artificială imagini. explică inginerul ML

Rețele adverse generative și deficiențele acestora

Cu doar câțiva ani în urmă, modele de ultimă generație în acestea

sarcinile erau considerate generativ-adversarialerețele neuronale (rețele adverse generative sau GAN), care au fost propuse în 2014 de Goodfellow et al și au fost îmbunătățite semnificativ în ultimii nouă ani. De exemplu, modelul 2021 StyleGAN 3 păstrează cu acuratețe detaliile feței chiar și cu schimbări și rotații, în timp ce predecesorii săi generează detalii „zgomotoase” în acest caz, cum ar fi părul, bărba sau modelele de îmbrăcăminte. Profesioniștii și entuziaștii s-au minunat de cât de bine pot genera GAN-urile fotografii cu persoane, animale sau apartamente inexistente.

Cu toate acestea, din cauza naturii competitiveModelele GAN sunt foarte instabile la antrenament și nu prezintă o varietate foarte mare de tipuri de imagini atunci când sunt generate. În plus, ele sunt slab aplicabile în sarcina de a genera imagini din text, deși există exemple în acest sens.

Rezultatele generării imaginilor după modelul StyleGAN 3

Boom-ul modelelor de difuzie

Modelele de difuzie, dimpotrivă, auvariabilitate suficientă a imaginilor generate și sunt destul de stabile. Principalul lor dezavantaj este viteza de învățare și de generare. Sunt necesare zeci sau chiar sute de plăci video pentru a antrena un model, iar generarea unei imagini folosind un model deja antrenat durează câteva secunde, spre deosebire de GAN, unde numărătoarea ajunge la zeci de milisecunde.

Generarea rezultă din modelul de difuzie al lui Ho et al

Boom-ul din jurul modelelor de difuzie este alimentat de ieșiremodele mari generative text-to-image. Cu siguranță mulți cititori au văzut rezultatele generate de DALL·E 2, MidJourney, Imagen sau Stable Diffusion. Unii artiști și ilustratori își fac griji că rețelele neuronale le vor lua munca, în timp ce alții cred că acest lucru va ajuta doar în procesul creativ. Programatorii și artiștii stăpânesc inginerie promptă - arta selectării textului pentru a obține rezultate de generare mai precise - și împărtășesc solicitări interesante și rezultate nu mai puțin interesante.

Invazie extraterestră Lofi pentru a te relaxa și a studia (rețeaua neuronală Midjourney) 

Pictură din secolul al XVII-lea cu The Beatles (Model Stable Diffusion 2.1)

Un fruct dragon care poartă centura de karate în zăpadă (modelul Imagen)

Cum funcționează modelele de difuzie?

Modelele de difuzie sunt modele iterative careacceptă zgomot aleator ca intrare. Pentru început, luați în considerare cel mai elementar model de difuzie, DDPM (Denoising Diffusion Probabilistic Model), prezentat de Ho și colab. Acest model este antrenat pas cu pas pe un eșantion de sute de mii de imagini, unde zgomotul aleatoriu de o anumită putere cunoscută este aplicat imaginii din eșantion la fiecare pas, iar modelul învață să inverseze acest zgomot, îmbunătățind astfel calitatea imaginii. Dacă aplicăm iterativ modelul antrenat în acest fel unei imagini cu zgomot complet aleatoriu, inversând zgomotul „slab” la fiecare pas, modelul poate genera o imagine complet nouă, scăpând treptat de zgomotul aleatoriu - folosind difuzia inversă.

Ilustrație a procesului de difuzare de bază (din tutorialul CVPR 2022) 

Zgomot aleatoriu din care este generatimaginea poate fi combinată cu o condiție - o cerință pentru un rezultat, exprimată în text sau alt exemplu de imagine. Mai întâi, să ne uităm la un exemplu din articolul SDEdit, în care utilizatorul indică rețelei neuronale un desen format din linii mari. Acest desen este și mai zgomotos până la punctul în care nu poate fi distins, de exemplu, de o fotografie zgomotoasă, apoi se aplică un proces iterativ de back-difuziune, care reconstruiește o imagine de înaltă calitate pe baza desenului furnizat. 

O ilustrare a procesului de difuzie bazat pe modele (din articolul SDEdit)

O altă modalitate de a direcționa generația către cel doritrezultatul este condiţionarea modelului de către text. Pentru a face acest lucru, sunt utilizate modele de limbaj, instruite pe perechi de imagini și subtitrări ale acestora, care sunt capabile să înțeleagă sensul imaginilor și textelor în același timp. Un exemplu de astfel de model este CLIP (Contrastive Language - Image Pre-training) lansat de OpenAI. Acest model este capabil să traducă imagini și texte într-un spațiu vectorial latent comun (unde un vector este doar o coloană a unor valori). În acest spațiu devine, de exemplu, posibil să găsiți imaginile cele mai apropiate de o interogare de text, deoarece aceasta este doar o operație algebrică pe vectori.

Model de difuzie latentă,introdus în 2021 condiţionează un model pe un spaţiu vectorial de texte pentru a genera imagini din zgomotul direcţional. Acest model folosește proprietățile spațiului latent comun al textelor și imaginilor. Stable Diffusion, Imagen și alte rețele neuronale mari text-to-image funcționează pe acest principiu.

O altă tehnică importantă care îmbunătățește calitateagenerația utilizată în antrenamentul modelelor de difuzie condiționată este ghidarea gratuită a clasificatorului. În termeni simpli, cu cât valoarea parametrului de ghidare gratuit al clasificatorului este mai mare, cu atât rezultatul seamănă mai mult cu o interogare de text, ceea ce adesea se traduce printr-o variabilitate mai mică a rezultatelor.

Probleme ale modelelor de difuzie

Desigur, modelele de difuzie nu suntsoluție universală pentru problema generării imaginii. Ele sunt încă supuse acelorași probleme ca și GAN-urile - la prima vedere, imaginile reale au dezavantaje semnificative - oamenii generați pot avea mai mult de cinci degete sau 32 de dinți. De asemenea, aceste modele sunt destul de proaste în a genera text pe imagini și chiar își inventează propriul „limbaj”.

Artiștii dau vina pe Midjourney și Stability AI(compania din spatele Stable Diffusion) pentru încălcarea drepturilor de autor în pregătirea datelor de formare - ei susțin că companiile au descărcat imagini de pe Internet fără acordul artiștilor sau despăgubiri corespunzătoare. Există, de asemenea, o preocupare tot mai mare că rețelele generative, inclusiv Stable Diffusion, întăresc stereotipurile negative despre rasă, gen și alte probleme sociale, deoarece sunt instruite pe date părtinitoare obținute de pe Internet. 

Povestea lui Adam și Eva, Noe și Zeus în stilul DC Comics (model DALL·E 2) 

Cum să încerci gratuit

Spre deosebire de multe evoluții anterioare înzone de viziune computerizată care erau adesea accesibile doar programatorilor, noile tehnologii din domeniul rețelelor de difuzie pot fi adesea încercate de oricine. Tendința generală către software cu sursă deschisă și publicarea versiunilor demo ale rețelelor neuronale le permite startup-urilor precum Hugging Face să agrupe multe versiuni de modele, de exemplu, Stable Diffusion 2.1. Ei dezvoltă, de asemenea, biblioteca de difuzoare, care este concepută pentru a simplifica utilizarea modelelor în cod. 

Serviciul Google Colab vă permite să rulați codGPU și TPU, atât de mulți entuziaști îl folosesc pentru a-și publica versiunile modelului, de exemplu, modelul Disco Diffusion Warp, care este capabil să schimbe stilul videoclipului. 

Există, de asemenea, interfețe convenabile pentru modele.Așadar, rețeaua neuronală MidJourney are o versiune de probă gratuită pentru câteva zeci de generații, ceea ce este suficient pentru a încerca modele text-to-image. OpenAI oferă, de asemenea, acces de probă la modelul DALL·E 2.

Ce urmează

Putem spune cu încredere că trăim o epocă de aurepoca generării imaginilor rețelelor neuronale. Comunitatea așteaptă cu nerăbdare viitoarele produse de la Google, care a lansat modelul de difuzare privată Imagen și un număr mare de articole despre editarea și generarea imaginilor, inclusiv utilizarea altor tehnologii de inteligență artificială. 

Apar noi startup-uri în domeniul creării șieditare de imagini care concurează cu succes cu giganți precum OpenAI sau Google. Noi articole despre modelele de difuzie sunt publicate aproape săptămânal, iar domeniul de aplicare a acestora astăzi nu se limitează la sarcinile enumerate ale vederii computerizate 2D - acestea sunt utilizate în sarcini de imagistică medicală, generare video și text 3D. 

Citeste mai mult:

Misterul dungilor roșii de pe satelitul lui Jupiter este dezvăluit

A găsit o planetă „imposibilă”. Ea sfidează știința modernă

Misteriosii „faguri” hexagonali din deserturile de sare au gasit o explicatie