Hogyan generál képeket a mesterséges intelligencia. ML mérnök elmagyarázza

Generatív ellenséges hálózatok és hiányosságaik

Alig néhány éve a legmodernebb modellek ezekben

feladatokat generatív-ellenállónak tekintettékneurális hálózatok (generatív ellenséges hálózatok vagy GAN-ok), amelyeket Goodfellow és munkatársai 2014-ben javasoltak, és amelyeket az elmúlt kilenc évben jelentősen továbbfejlesztettek. A 2021-es StyleGAN 3 modell például még eltolásokkal és forgatásokkal is pontosan megőrzi az arc részleteit, míg elődei ilyenkor „zajos” részleteket generálnak, mint például haj, szakáll vagy ruhaminta. A szakemberek és a rajongók csodálkoztak azon, hogy a GAN-ok milyen jól tudnak fotókat készíteni nem létező emberekről, állatokról vagy lakásokról.

A versenyjelleg miatt azonbanA GAN modellek nagyon instabilok a képzés során, és nem mutatnak nagyon sokféle képtípust generáláskor. Ezen túlmenően rosszul alkalmazhatók szövegből képek generálására, bár vannak erre példák.

A StyleGAN 3 modell képgenerálásának eredményei

A diffúziós modellek fellendülése

A diffúziós modellek éppen ellenkezőlegA generált képek elég változatosak, és meglehetősen stabilak. Legfőbb hátrányuk a tanulás és a generációs gyorsaság. Egy modell betanításához több tucat vagy akár több száz videokártya szükséges, és a kép generálása egy már betanított modell segítségével több másodpercet vesz igénybe, ellentétben a GAN-nal, ahol a számolás több tíz milliszekundumra megy.

A generálás Ho et al. diffúziós modelljének eredménye

A diffúziós modellek körüli fellendülést a kijárat tápláljanagy generatív szöveg-kép modellek. Bizonyára sok olvasó látta a DALL·E 2, a MidJourney, az Imagen vagy a Stable Diffusion által generált eredményeket. Egyes művészek és illusztrátorok attól tartanak, hogy a neurális hálózatok elveszik munkájukat, míg mások úgy vélik, hogy ez csak segít az alkotási folyamatban. A programozók és művészek elsajátítják az azonnali tervezést – a szövegek kiválasztásának művészetét a pontosabb generálási eredmények elérése érdekében –, és érdekes kéréseket és nem kevésbé érdekes eredményeket osztanak meg egymással.

Lofi idegen invázió pihenni és tanulni (Midjourney neurális hálózat) 

17. századi The Beatles festmény (Model Stable Diffusion 2.1)

Egy sárkánygyümölcs karate övet visel a hóban (Imagen modell)

Hogyan működnek a diffúziós modellek?

A diffúziós modellek iteratív modellek, amelyekvéletlenszerű zajt fogadjon be bemenetként. Kezdésként tekintsük a legalapvetőbb diffúziós modellt, a DDPM-et (Denoising Diffusion Probabilistic Model), amelyet Ho et al. Ezt a modellt lépésről lépésre betanítják egy több százezer képből álló mintán, ahol minden lépésben valamilyen ismert erősségű véletlenszerű zajt alkalmaznak a mintából, és a modell megtanulja megfordítani ezt a zajt, javítva ezzel a képminőséget. Ha a betanított modellt iteratív módon alkalmazzuk egy teljesen véletlenszerű zaj képére, minden lépésben megfordítva a "gyenge" zajt, akkor a modell teljesen új képet tud generálni, fokozatosan megszabadulva a véletlenszerű zajtól - visszadiffúzió segítségével.

Az alapvető diffúziós folyamat illusztrációja (a CVPR 2022 oktatóanyagából) 

Véletlenszerű zaj keletkezikkép kombinálható feltétellel - egy eredmény követelményével, szövegben vagy más példaképben kifejezve. Először nézzünk meg egy példát az SDEdit cikkből, ahol a felhasználó egy nagy vonalvezetésekből álló rajzot jelez a neurális hálózatnak. Ez a rajz olyan mértékben zajos, hogy nem lehet megkülönböztetni például egy zajos fényképtől, majd egy iteratív visszadiffúziós eljárást alkalmaznak, amely a megadott rajz alapján jó minőségű képet rekonstruál. 

A mintavezérelt diffúziós folyamat illusztrációja (az SDEdit cikkből)

Egy másik módja annak, hogy a generációt a kívánthoz irányítsaaz eredmény a modell szöveg általi kondicionálása. Ehhez képpárokra és feliratokra oktatott nyelvi modelleket használnak, amelyek képesek egyszerre megérteni a képek és szövegek jelentését. Ilyen modell például az OpenAI által kiadott CLIP (Contrastive Language – Image Pre-training). Ez a modell képes képeket és szövegeket egy közös látens vektortérbe fordítani (ahol a vektor csak néhány érték oszlopa). Ebben a térben lehetővé válik például a szöveges lekérdezéshez legközelebbi képek megtalálása, mivel ez csak egy vektorokon végzett algebrai művelet.

Látens diffúziós modell,2021-ben bevezetett egy modellt a szövegek vektorterén, hogy az irányzajból képeket hozzon létre. Ez a modell a szövegek és képek közös látens terének tulajdonságait használja fel. A stabil diffúzió, az Imagen és más nagyméretű szöveg-kép neurális hálózatok ezen az elven működnek.

Egy másik fontos technika, amely javítja a minőségetgenerációs képzésben használt feltételes diffúziós modellek az osztályozó mentes útmutatás. Egyszerűen fogalmazva, minél magasabb az osztályozó szabad útmutatás paraméterének értéke, az eredmény annál inkább hasonlít egy szöveges lekérdezésre, ami gyakran az eredmények kisebb változékonyságát eredményezi.

A diffúziós modellek problémái

Természetesen a diffúziós modellek nemuniverzális megoldás a képalkotás problémájára. Még mindig ugyanazok a problémák vannak kitéve, mint a GAN-oknak – első pillantásra a valós képeknek jelentős hátrányai vannak – a generált embernek több mint öt ujja vagy 32 foga lehet. Ráadásul ezek a modellek elég rosszul tudnak szöveget generálni a képeken, sőt kitalálják a saját „nyelvüket”.

A művészek a Midjourney-t és a stabilitást hibáztatják(a Stable Diffusion mögött álló cég) képzési adatok készítése során elkövetett szerzői jogok megsértése miatt - azt állítják, hogy a cégek a művészek hozzájárulása vagy megfelelő ellenszolgáltatás nélkül töltöttek le képeket az internetről. Egyre nagyobb aggodalomra ad okot az is, hogy a generatív hálózatok, köztük a Stable Diffusion, megerősítik a faji, nemi és egyéb társadalmi problémákkal kapcsolatos negatív sztereotípiákat, mivel az internetről nyert elfogult adatok alapján képezik őket. 

Ádám és Éva, Noé és Zeusz története a DC Comics stílusában (DALL·E 2 modell) 

Hogyan próbáld ki ingyen

Sok korábbi fejlesztéssel ellentétbenA számítógépes látás olyan területei, amelyek gyakran csak programozók számára voltak elérhetőek, a diffúziós hálózatok területén az új technológiákat gyakran mindenki kipróbálhatja. A nyílt forráskódú szoftverek és a neurális hálózatok demóverzióinak közzététele iránti általános tendencia lehetővé teszi az olyan induló vállalkozások számára, mint a Hugging Face, hogy összevonják a modellek számos verzióját, például a Stable Diffusion 2.1-et. Fejlesztik a diffúzorok könyvtárát is, amelynek célja, hogy leegyszerűsítse a modellek kódbeli használatát. 

A Google Colab szolgáltatás lehetővé teszi a kód futtatásátGPU és TPU, ezért sok rajongó használja a modell verzióinak közzétételére, például a Disco Diffusion Warp modellre, amely képes megváltoztatni a videó stílusát. 

A modellekhez kényelmes interfészek is vannak.Tehát a MidJourney neurális hálózatnak van egy ingyenes próbaverziója több tucat generáció számára, ami elegendő a szöveg-kép modellek kipróbálásához. Az OpenAI próba-hozzáférést is biztosít a DALL·E 2 modellhez.

Mi a következő

Bátran kijelenthetjük, hogy aranykort élünka neurális hálózati képalkotás korszaka. A közösség izgatottan várja a Google jövőbeli termékeit, amely kiadta az Imagen privát diffúziós modellt, valamint számos cikket a képszerkesztésről és -generálásról, beleértve más mesterséges intelligencia-technológiák használatát is. 

Új startupok jelennek meg az alkotás ésképszerkesztés, amely sikeresen felveszi a versenyt az olyan óriásokkal, mint az OpenAI vagy a Google. Szinte hetente jelennek meg új cikkek a diffúziós modellekről, amelyek alkalmazási köre ma már nem korlátozódik a 2D számítógépes látás felsorolt feladataira – orvosi képalkotó feladatokban, videogenerálásban és 3D-s szövegalkotásban is használják őket. 

Olvass tovább:

Kiderül a Jupiter műhold vörös csíkjainak rejtélye

"Lehetetlen" bolygót találtak. Dacol a modern tudományokkal

A sós sivatagok rejtélyes hatszögletű "méhsejtjei" magyarázatot találtak

Geek Tech Online

Minden a technológiáról és a modulokról