Jak umělá inteligence generuje obrázky. ML inženýr vysvětluje

Generativní kontradiktorní sítě a jejich nedostatky

Ještě před pár lety v nich nejmodernější modely

úkoly byly považovány za generativní-adversariálníneuronové sítě (generative adversarial networks neboli GAN), které byly navrženy v roce 2014 Goodfellowem a kol. a během posledních devíti let byly výrazně vylepšeny. Například model 2021 StyleGAN 3 přesně zachovává detaily obličeje i při posunech a rotacích, zatímco jeho předchůdci v tomto případě generují „hlučné“ detaily, jako jsou vlasy, vousy nebo vzory oblečení. Profesionálové a nadšenci žasli nad tím, jak dobře GANy dokážou generovat fotografie neexistujících lidí, zvířat nebo bytů.

Nicméně kvůli konkurenčnímu charakteruModely GAN jsou při trénování velmi nestabilní a při generování nevykazují příliš širokou škálu typů obrázků. Kromě toho jsou špatně použitelné v úloze generování obrázků z textu, ačkoli existují příklady.

Výsledky generování obrazu pomocí modelu StyleGAN 3

Rozmach difúzních modelů

Difúzní modely naopak majídostatečnou variabilitu generovaných obrázků a jsou vcelku stabilní. Jejich hlavní nevýhodou je rychlost učení a generování. K trénování modelu jsou potřeba desítky nebo dokonce stovky grafických karet a generování obrázku pomocí již natrénovaného modelu trvá několik sekund, na rozdíl od GAN, kde se počet pohybuje v desítkách milisekund.

Generování je výsledkem difúzního modelu Ho et al

Rozmach kolem difúzních modelů je poháněn výstupemvelké generativní modely převodu textu na obrázek. Mnoho čtenářů jistě vidělo výsledky generované DALL·E 2, MidJourney, Imagen nebo Stable Diffusion. Někteří umělci a ilustrátoři se obávají, že jim neuronové sítě vezmou práci, zatímco jiní věří, že to jen pomůže v tvůrčím procesu. Programátoři a umělci ovládají rychlé inženýrství – umění výběru textu pro získání přesnějších výsledků generování – a sdílejí zajímavé požadavky a neméně zajímavé výsledky.

Lofi mimozemská invaze k relaxaci a studiu (neuronová síť Midjourney) 

Obraz The Beatles ze 17. století (Model Stable Diffusion 2.1)

Dračí ovoce s pásem karate ve sněhu (model Imagen)

Jak fungují difúzní modely?

Difúzní modely jsou iterativní modely, kterépřijmout náhodný šum jako vstup. Pro začátek zvažte nejzákladnější difúzní model, DDPM (Denoising Diffusion Probabilistic Model), prezentovaný Ho et al. Tento model je krok za krokem trénován na vzorku stovek tisíc snímků, kdy je na snímek ze vzorku v každém kroku aplikován náhodný šum nějaké známé síly a model se učí tento šum zvrátit, čímž se zlepšuje kvalita obrazu. Pokud takto natrénovaný model iterativně aplikujeme na obrázek zcela náhodného šumu, přičemž v každém kroku invertujeme „slabý“ šum, model může vygenerovat zcela nový obrázek, postupně se náhodného šumu zbavovat – pomocí zpětné difúze.

Ilustrace základního difuzního procesu (z tutoriálu CVPR 2022) 

Náhodný šum, ze kterého je generovánobrázek lze kombinovat s podmínkou - požadavkem na výsledek, vyjádřeným textem nebo jiným vzorovým obrázkem. Nejprve se podívejme na příklad z článku SDEdit, kde uživatel označuje neuronové síti kresbu skládající se z velkých tahů. Tato kresba je dále zašuměná do té míry, že ji nelze rozeznat např. od zašuměné fotografie a následně je aplikována iterativní zpětná difúze, která na základě poskytnuté kresby rekonstruuje vysoce kvalitní obraz. 

Ukázka procesu difúze řízeného vzorem (z článku SDEdit)

Další způsob, jak nasměrovat generaci k požadovanémuvýsledkem je podmínění modelu textem. K tomu se používají jazykové modely natrénované na dvojicích obrázků a popisků k nim, které jsou schopny chápat význam obrázků a textů zároveň. Příkladem takového modelu je CLIP (Contrastive Language - Image Pre-training) vydaný OpenAI. Tento model je schopen překládat obrázky a texty do běžného latentního vektorového prostoru (kde vektor je pouze sloupec nějakých hodnot). V tomto prostoru je například možné najít nejbližší obrázky k nějakému textovému dotazu, protože se jedná pouze o algebraickou operaci s vektory.

Model latentní difúze,představený v roce 2021 podmiňuje model na vektorovém prostoru textů pro generování obrázků ze směrového šumu. Tento model využívá vlastnosti společného latentního prostoru textů a obrázků. Na tomto principu fungují Stable Diffusion, Imagen a další velké neuronové sítě typu text-to-image.

Další důležitá technika, která zlepšuje kvalitugenerace používaná v tréninkových modelech podmíněné difúze je bez klasifikátoru vedení. Jednoduše řečeno, čím vyšší je hodnota parametru bez klasifikátoru, tím více se výsledek podobá textovému dotazu, což se často promítá do menší variability výsledků.

Problémy difúzních modelů

Difúzní modely samozřejmě nejsouuniverzální řešení pro problém generování obrazu. Stále podléhají stejným problémům jako GAN - na první pohled mají skutečné obrázky značné nevýhody - generovaní lidé mohou mít více než pět prstů nebo 32 zubů. Tyto modely jsou také docela špatné při generování textu na obrázcích a dokonce si vymýšlejí svůj vlastní „jazyk“.

Umělci obviňují Midjourney a Stability AI(společnost stojící za Stable Diffusion) za porušení autorských práv při přípravě tréninkových dat – tvrdí, že společnosti stahovaly obrázky z internetu bez souhlasu umělců či řádné náhrady. Roste také obava, že generativní sítě, včetně Stable Diffusion, posilují negativní stereotypy o rase, pohlaví a dalších sociálních otázkách, protože jsou trénovány na neobjektivních datech získaných z internetu. 

Příběh Adama a Evy, Noema a Dia ve stylu DC Comics (model DALL·E 2) 

Jak vyzkoušet zdarma

Na rozdíl od mnoha předchozích vývojů voblasti počítačového vidění, které byly často přístupné pouze programátorům, si nové technologie v oblasti difúzních sítí může často vyzkoušet každý. Obecný trend směrem k open source softwaru a publikování demo verzí neuronových sítí umožňuje startupům jako Hugging Face agregovat mnoho verzí modelů, například Stable Diffusion 2.1. Vyvíjejí také knihovnu difuzérů, která je navržena tak, aby zjednodušila použití modelů v kódu. 

Služba Google Colab vám umožňuje spouštět kódGPU a TPU, takže mnoho nadšenců jej používá k publikování svých verzí modelu, například modelu Disco Diffusion Warp, který je schopen změnit styl videa. 

K dispozici jsou také pohodlná rozhraní k modelům.Neuronová síť MidJourney má tedy bezplatnou zkušební verzi pro několik desítek generací, což stačí na vyzkoušení modelů text-to-image. OpenAI také poskytuje zkušební přístup k modelu DALL·E 2.

Co bude dál

Můžeme s jistotou říci, že zažíváme zlatý věkéra generování obrazu neuronové sítě. Komunita netrpělivě očekává budoucí produkty od společnosti Google, která vydala soukromý difúzní model Imagen a velké množství článků o úpravách a generování obrázků, včetně využití dalších technologií umělé inteligence. 

Nové startupy vznikají v oblasti tvorby aúpravy obrázků, které úspěšně konkurují gigantům jako OpenAI nebo Google. Nové články o difuzních modelech vycházejí téměř každý týden a rozsah jejich uplatnění se dnes neomezuje pouze na vyjmenované úlohy 2D počítačového vidění – využívají se v lékařských zobrazovacích úlohách, generování videa a 3D textu. 

Přečtěte si více:

Záhada červených pruhů na satelitu Jupiteru je odhalena

Nalezena "nemožná" planeta. Popírá moderní vědu

Záhadné šestiúhelníkové „medové plástve“ v solných pouštích našly vysvětlení

Geek Tech online

Vše o technologii a pomůckách