Ako umelá inteligencia vytvára obrázky. ML Engineer vysvetľuje

Generatívne kontradiktórne siete a ich nedostatky

Len pred pár rokmi v nich najmodernejšie modely

úlohy boli považované za generatívno-protivnéneurónové siete (generative adversarial networks alebo GAN), ktoré v roku 2014 navrhli Goodfellow et al a za posledných deväť rokov sa výrazne zlepšili. Napríklad model 2021 StyleGAN 3 presne zachováva detaily tváre aj pri posunoch a rotáciách, zatiaľ čo jeho predchodcovia v tomto prípade generujú „hlučné“ detaily, ako sú vlasy, fúzy alebo vzory oblečenia. Profesionáli a nadšenci sa čudovali, ako dobre dokážu GAN generovať fotografie neexistujúcich ľudí, zvierat alebo bytov.

Avšak vzhľadom na súťažný charakterModely GAN sú pri trénovaní veľmi nestabilné a pri generovaní nevykazujú veľmi veľké množstvo typov obrázkov. Okrem toho sú zle použiteľné pri úlohe generovania obrázkov z textu, aj keď existujú príklady.

Výsledky generovania obrazu podľa modelu StyleGAN 3

Boom v oblasti difúznych modelov

Difúzne modely, naopak, majúdostatočnú variabilitu generovaných obrázkov a sú celkom stabilné. Ich hlavnou nevýhodou je rýchlosť učenia a generovania. Na trénovanie modelu sú potrebné desiatky alebo dokonca stovky grafických kariet a generovanie obrazu pomocou už natrénovaného modelu trvá niekoľko sekúnd, na rozdiel od GAN, kde sa počet pohybuje v desiatkach milisekúnd.

Výsledky generovania z difúzneho modelu Ho a kol

Boom okolo difúznych modelov je poháňaný výstupomveľké generatívne modely prevodu textu na obrázok. Určite mnohí čitatelia videli výsledky generované DALL·E 2, MidJourney, Imagen alebo Stable Diffusion. Niektorí umelci a ilustrátori sa obávajú, že im neurónové siete vezmú prácu, zatiaľ čo iní veria, že to len pomôže v kreatívnom procese. Programátori a umelci ovládajú promptné inžinierstvo – umenie výberu textu na získanie presnejších výsledkov generovania – a zdieľajú zaujímavé požiadavky a nemenej zaujímavé výsledky.

Lofi mimozemská invázia na oddych a štúdium (urónová sieť Midjourney) 

Obraz The Beatles zo 17. storočia (Model Stable Diffusion 2.1)

Dračie ovocie s pásom karate v snehu (model Imagen)

Ako fungujú modely difúzie?

Difúzne modely sú iteratívne modely, ktoréakceptovať náhodný šum ako vstup. Na začiatok zvážte najzákladnejší model difúzie, DDPM (Denoising Diffusion Probabilistic Model), ktorý predstavili Ho a kol. Tento model sa trénuje krok za krokom na vzorke státisícov obrázkov, kde sa na obrázok zo vzorky v každom kroku aplikuje náhodný šum nejakej známej sily a model sa naučí tento šum zvrátiť, čím sa zlepší kvalita obrazu. Ak takto natrénovaný model iteratívne aplikujeme na obrázok úplne náhodného šumu, pričom pri každom kroku invertujeme „slabý“ šum, model dokáže vygenerovať úplne nový obrázok, pričom sa náhodného šumu postupne zbavuje – pomocou spätnej difúzie.

Ilustrácia základného difúzneho procesu (z tutoriálu CVPR 2022) 

Náhodný šum, z ktorého sa generujeobrázok je možné kombinovať s podmienkou – požiadavkou na výsledok, vyjadrený textom alebo iným vzorovým obrázkom. Najprv sa pozrime na príklad z článku SDEdit, kde používateľ označuje neurónovej sieti kresbu pozostávajúcu z veľkých ťahov. Táto kresba je ďalej zašumená do takej miery, že ju nemožno odlíšiť napríklad od zašumenej fotografie a následne sa použije iteračný proces spätnej difúzie, ktorý na základe poskytnutej kresby zrekonštruuje kvalitný obraz. 

Ilustrácia procesu difúzie riadeného vzorom (z článku SDEdit)

Ďalší spôsob, ako nasmerovať generáciu k želanémuvýsledkom je podmienenie modelu textom. K tomu slúžia jazykové modely natrénované na dvojiciach obrázkov a popiskov k nim, ktoré sú schopné porozumieť významu obrázkov a textov zároveň. Príkladom takéhoto modelu je CLIP (Contrastive Language - Image Pre-training) vydaný OpenAI. Tento model je schopný prekladať obrázky a texty do spoločného latentného vektorového priestoru (kde vektor je len stĺpec nejakých hodnôt). V tomto priestore je napríklad možné nájsť najbližšie obrázky k nejakému textovému dopytu, keďže ide len o algebraickú operáciu s vektormi.

Model latentnej difúzie,predstavený v roku 2021 podmieňuje model na vektorovom priestore textov na generovanie obrázkov zo smerového šumu. Tento model využíva vlastnosti spoločného latentného priestoru textov a obrázkov. Na tomto princípe fungujú Stable Diffusion, Imagen a ďalšie veľké neurónové siete typu text-to-image.

Ďalšia dôležitá technika, ktorá zlepšuje kvalitugenerácie používanej v tréningových modeloch podmienenej difúzie je bez klasifikátora vedenie. Zjednodušene povedané, čím vyššia je hodnota parametra voľného vedenia klasifikátora, tým viac sa výsledok podobá textovému dotazu, čo sa často premieta do menšej variability výsledkov.

Problémy difúznych modelov

Samozrejme, difúzne modely nie súuniverzálne riešenie problému generovania obrazu. Stále sú vystavené rovnakým problémom ako GAN – na prvý pohľad majú skutočné obrázky značné nevýhody – generovaní ľudia môžu mať viac ako päť prstov alebo 32 zubov. Tieto modely sú tiež dosť zlé pri generovaní textu na obrázkoch a dokonca si vymýšľajú svoj vlastný „jazyk“.

Umelci obviňujú Midjourney a Stability AI(spoločnosť stojaca za Stable Diffusion) za porušenie autorských práv pri príprave tréningových dát – tvrdia, že firmy stiahli obrázky z internetu bez súhlasu umelcov alebo riadnej kompenzácie. Rastú tiež obavy, že generatívne siete, vrátane Stable Diffusion, posilňujú negatívne stereotypy o rase, pohlaví a iných sociálnych otázkach, pretože sú trénované na neobjektívnych údajoch získaných z internetu. 

Príbeh Adama a Evy, Noeho a Dia v štýle DC Comics (model DALL·E 2) 

Ako vyskúšať zadarmo

Na rozdiel od mnohých predchádzajúcich vývojov voblasti počítačového videnia, ktoré boli často prístupné len programátorom, si nové technológie v oblasti difúznych sietí môže často vyskúšať každý. Všeobecný trend smerom k open source softvéru a publikovaniu demo verzií neurónových sietí umožňuje startupom ako Hugging Face agregovať mnoho verzií modelov, napríklad Stable Diffusion 2.1. Vyvíjajú tiež knižnicu difúzorov, ktorá je navrhnutá tak, aby zjednodušila používanie modelov v kóde. 

Služba Google Colab vám umožňuje spustiť kódGPU a TPU, takže mnohí nadšenci ho používajú na publikovanie svojich verzií modelu, napríklad modelu Disco Diffusion Warp, ktorý je schopný zmeniť štýl videa. 

K dispozícii sú tiež pohodlné rozhrania pre modely.Neurónová sieť MidJourney má teda bezplatnú skúšobnú verziu pre niekoľko desiatok generácií, čo stačí na vyskúšanie modelov text-to-image. OpenAI tiež poskytuje skúšobný prístup k modelu DALL·E 2.

Čo ďalej

Môžeme smelo povedať, že zažívame zlatý vekéra generovania obrazu neurónových sietí. Komunita netrpezlivo očakáva budúce produkty od spoločnosti Google, ktorá vydala súkromný difúzny model Imagen a veľké množstvo článkov o úprave a generovaní obrázkov, vrátane využitia iných technológií umelej inteligencie. 

Vznikajú nové startupy v oblasti tvorby aúprava obrázkov, ktorá úspešne konkuruje gigantom ako OpenAI alebo Google. Nové články o difúznych modeloch vychádzajú takmer týždenne a rozsah ich aplikácie sa dnes neobmedzuje len na vymenované úlohy 2D počítačového videnia – využívajú sa pri úlohách medicínskeho zobrazovania, generovaní videa a 3D textu. 

Čítaj viac:

Záhada červených pruhov na satelite Jupitera je odhalená

Nájdená „nemožná“ planéta. Popiera modernú vedu

Záhadné šesťuholníkové „medové plásty“ v soľných púšťach našli vysvetlenie

Geek Tech online

Všetko o technológii a prístrojoch

Ako umelá inteligencia vytvára obrázky. Vysvetľuje inžinier ML