Kā mākslīgais intelekts ģenerē attēlus. ML inženieris skaidro

Ģeneratīvie pretrunīgie tīkli un to trūkumi

Tikai pirms dažiem gadiem jaunākie modeļi šajos

uzdevumi tika uzskatīti par ģeneratīviem-pretrunīgiemneironu tīkli (ģeneratīvie pretrunīgie tīkli vai GAN), kurus 2014. gadā ierosināja Goodfellow et al un kuri pēdējo deviņu gadu laikā ir ievērojami uzlaboti. Piemēram, 2021. gada StyleGAN 3 modelis precīzi saglabā sejas detaļas pat ar pārbīdēm un rotācijām, savukārt tā priekšteči šajā gadījumā rada “trokšņainas” detaļas, piemēram, matus, bārdas vai apģērba rakstus. Profesionāļi un entuziasti ir brīnījušies, cik labi GAN var ģenerēt neesošu cilvēku, dzīvnieku vai dzīvokļu fotogrāfijas.

Tomēr konkurences rakstura dēļGAN modeļi apmācībā ir ļoti nestabili, un tie ģenerējot neuzrāda ļoti lielu attēlu veidu dažādību. Turklāt tie ir slikti pielietojami, lai ģenerētu attēlus no teksta, lai gan ir tādi piemēri.

Attēlu ģenerēšanas rezultāti pēc StyleGAN 3 modeļa

Difūzijas modeļu uzplaukums

Gluži pretēji, difūzijas modeļiem irģenerēto attēlu mainīgums ir diezgan stabils. To galvenais trūkums ir mācīšanās un paaudzes ātrums. Lai apmācītu modeli, ir nepieciešami desmitiem vai pat simtiem video karšu, un attēla ģenerēšana, izmantojot jau apmācītu modeli, aizņem vairākas sekundes, atšķirībā no GAN, kur skaitīšana notiek līdz desmitiem milisekundēm.

Radīšanas rezultāti no Ho et al. difūzijas modeļa

Uzplaukumu ap difūzijas modeļiem veicina izejalieli ģeneratīvi teksta pārveides modeļi. Noteikti daudzi lasītāji ir redzējuši DALL·E 2, MidJourney, Imagen vai Stable Diffusion radītos rezultātus. Daži mākslinieki un ilustratori uztraucas, ka neironu tīkli atņems viņu darbu, savukārt citi uzskata, ka tas tikai palīdzēs radošajā procesā. Programmētāji un mākslinieki apgūst tūlītēju inženieriju — teksta atlases mākslu, lai iegūtu precīzākus ģenerēšanas rezultātus — un dalās ar interesantiem pieprasījumiem un ne mazāk interesantiem rezultātiem.

Lofi citplanētiešu iebrukums, lai atpūstos un mācītos (Midjourney neironu tīkls) 

17. gadsimta The Beatles glezna (Model Stable Diffusion 2.1)

Pūķa auglis, kas valkā karatē jostu sniegā (Imagen modelis)

Kā darbojas difūzijas modeļi?

Difūzijas modeļi ir iteratīvi modeļi, kaspieņemt nejaušu troksni kā ievadi. Lai sāktu, apsveriet visvienkāršāko difūzijas modeli DDPM (Denoising Diffusion Probabilistic Model), ko prezentēja Ho et al. Šis modelis tiek apmācīts soli pa solim simtiem tūkstošu attēlu paraugā, kur katrā solī attēlam no parauga tiek pielietots nejaušs zināma stipruma troksnis, un modelis iemācās mainīt šo troksni, tādējādi uzlabojot attēla kvalitāti. Ja šādā veidā apmācīto modeli iteratīvi pielietojam pilnīgi nejauša trokšņa attēlam, katrā solī apgriežot "vāju" troksni, modelis var ģenerēt pilnīgi jaunu attēlu, pakāpeniski atbrīvojoties no nejauša trokšņa - izmantojot pretdifūziju.

Pamata difūzijas procesa ilustrācija (no CVPR 2022 apmācības) 

Nejaušs troksnis, no kura rodasattēlu var apvienot ar nosacījumu - prasību pēc rezultāta, izteiktu tekstā vai citā attēla paraugā. Vispirms apskatīsim piemēru no SDEdit raksta, kur lietotājs norāda neironu tīklam zīmējumu, kas sastāv no lieliem triepieniem. Šis zīmējums ir vēl trokšņains tiktāl, ka to nevar atšķirt no, piemēram, trokšņainas fotogrāfijas, un pēc tam tiek izmantots iteratīvs pretdifūzijas process, kas, pamatojoties uz sniegto zīmējumu, rekonstruē augstas kvalitātes attēlu. 

Modeļa vadīta difūzijas procesa ilustrācija (no SDEdit raksta)

Vēl viens veids, kā novirzīt paaudzi uz vēlamorezultāts ir modeļa kondicionēšana ar tekstu. Lai to izdarītu, tiek izmantoti valodu modeļi, kas apmācīti uz attēlu pāriem un to parakstiem, kas spēj vienlaikus saprast attēlu un tekstu nozīmi. Šāda modeļa piemērs ir OpenAI izdotais CLIP (Contrastive Language - Image Pre-training). Šis modelis spēj tulkot attēlus un tekstus kopējā latentā vektora telpā (kur vektors ir tikai dažu vērtību kolonna). Šajā telpā kļūst, piemēram, iespējams atrast kādam teksta vaicājumam tuvākos attēlus, jo tā ir tikai algebriska darbība ar vektoriem.

Latentās difūzijas modelis,2021. gadā ieviesa tekstu vektoru telpas modeli, lai radītu attēlus no virziena trokšņa. Šis modelis izmanto tekstu un attēlu kopējās latentās telpas īpašības. Stabilas difūzijas, Imagen un citi lieli teksta-attēlu neironu tīkli darbojas pēc šī principa.

Vēl viens svarīgs paņēmiens, kas uzlabo kvalitātipaaudzes, ko izmanto apmācībā kondicionētas difūzijas modeļos, ir norādes bez klasifikatora. Vienkārši izsakoties, jo augstāka ir klasifikatora brīvās norādes parametra vērtība, jo vairāk rezultāts atgādina teksta vaicājumu, kas bieži vien nozīmē mazāku rezultātu mainīgumu.

Difūzijas modeļu problēmas

Protams, difūzijas modeļi navuniversāls risinājums attēla ģenerēšanas problēmai. Uz tiem joprojām attiecas tādas pašas problēmas kā GAN — no pirmā acu uzmetiena reāliem attēliem ir būtiski trūkumi — radītiem cilvēkiem var būt vairāk nekā pieci pirksti vai 32 zobi. Turklāt šie modeļi diezgan slikti ģenerē tekstu uz attēliem un pat izdomā paši savu “valodu”.

Mākslinieki vaino Midjourney un stabilitāti AI(uzņēmums, kas atrodas aiz Stable Diffusion) par autortiesību pārkāpumu apmācību datu sagatavošanā - viņi apgalvo, ka uzņēmumi lejupielādējuši attēlus no interneta bez mākslinieku piekrišanas vai pienācīgas atlīdzības. Pieaug arī bažas, ka ģeneratīvie tīkli, tostarp Stabilā difūzija, pastiprina negatīvos stereotipus par rasi, dzimumu un citiem sociālajiem jautājumiem, jo ​​tie tiek apmācīti, izmantojot neobjektīvus datus, kas iegūti no interneta. 

Stāsts par Ādamu un Ievu, Nou un Zevu DC Comics stilā (modelis DALL·E 2) 

Kā izmēģināt bez maksas

Atšķirībā no daudzām iepriekšējām norisēmDatorredzes jomās, kas bieži vien bija pieejamas tikai programmētājiem, jaunās tehnoloģijas difūzijas tīklu jomā bieži vien var izmēģināt ikviens. Vispārējā tendence uz atvērtā pirmkoda programmatūru un neironu tīklu demonstrācijas versiju publicēšanu ļauj tādiem jaunizveidotiem uzņēmumiem kā Hugging Face apkopot daudzas modeļu versijas, piemēram, Stable Diffusion 2.1. Viņi arī izstrādā difuzoru bibliotēku, kas ir izstrādāta, lai vienkāršotu modeļu izmantošanu kodā. 

Google Colab pakalpojums ļauj palaist koduGPU un TPU, tāpēc daudzi entuziasti to izmanto, lai publicētu savas modeļa versijas, piemēram, Disco Diffusion Warp modeli, kas spēj mainīt videoklipa stilu. 

Ir arī ērtas saskarnes modeļiem.Tātad MidJourney neironu tīklam ir bezmaksas izmēģinājuma versija vairākiem desmitiem paaudžu, kas ir pietiekami, lai izmēģinātu teksta-attēlu modeļus. OpenAI nodrošina arī izmēģinājuma piekļuvi DALL·E 2 modelim.

Kas tālāk

Varam droši apgalvot, ka piedzīvo zelta laikmetuneironu tīklu attēlu ģenerēšanas laikmets. Kopiena ar nepacietību gaida nākotnes produktus no Google, kas ir izlaidis privātās difūzijas modeli Imagen un lielu skaitu rakstu par attēlu rediģēšanu un ģenerēšanu, tostarp par citu mākslīgā intelekta tehnoloģiju izmantošanu. 

Radīšanas jomā rodas jauni startapi unattēlu rediģēšana, kas veiksmīgi konkurē ar tādiem milžiem kā OpenAI vai Google. Jauni raksti par difūzijas modeļiem tiek publicēti gandrīz katru nedēļu, un to pielietojuma apjoms mūsdienās neaprobežojas tikai ar uzskaitītajiem 2D datorredzes uzdevumiem – tie tiek izmantoti medicīniskās attēlveidošanas uzdevumos, video ģenerēšanā un 3D tekstā. 

Lasīt vairāk:

Tiek atklāts Jupitera pavadoņa sarkano svītru noslēpums

Atrasta "neiespējamā" planēta. Viņa izaicina mūsdienu zinātni

Noslēpumainās sešstūrainas "šūnveida šūniņas" sāls tuksnešos atrada izskaidrojumu