Kuinka tekoäly luo kuvia. ML Engineer selittää

Generatiiviset kontradiktoriset verkostot ja niiden puutteet

Vielä muutama vuosi sitten huippuluokan mallit näissä

Tehtäviä pidettiin generatiivis-vastuullisinahermoverkot (generative adversarial networks tai GAN), joita Goodfellow ym. ehdottivat vuonna 2014 ja joita on parannettu merkittävästi viimeisten yhdeksän vuoden aikana. Esimerkiksi 2021 StyleGAN 3 -malli säilyttää tarkasti kasvojen yksityiskohdat myös siirtymällä ja pyörittämällä, kun taas sen edeltäjät tuottavat tässä tapauksessa "meluisia" yksityiskohtia, kuten hiuksia, partaa tai vaatekuvioita. Ammattilaiset ja harrastajat ovat ihmetelleet, kuinka hyvin GANit voivat luoda kuvia olemattomista ihmisistä, eläimistä tai asunnoista.

Kuitenkin kilpailun luonteen vuoksiGAN-mallit ovat erittäin epävakaita harjoittelussa, eivätkä ne näytä kovin suurta valikoimaa kuvatyyppejä luotaessa. Lisäksi ne soveltuvat huonosti tekstistä kuvien luomiseen, vaikka esimerkkejä tästä onkin.

StyleGAN 3 -mallin kuvan luomisen tulokset

Diffuusiomallien puomi

Diffuusiomalleilla on päinvastoinluotujen kuvien vaihtelu on riittävä ja ne ovat melko vakaita. Niiden suurin haittapuoli on oppimisen ja sukupolven nopeus. Mallin kouluttamiseen tarvitaan kymmeniä tai jopa satoja näytönohjainkortteja, ja kuvan luominen jo koulutetulla mallilla kestää useita sekunteja, toisin kuin GANissa, jossa laskenta menee kymmeniin millisekunteihin.

Generation tulokset diffuusiomallista Ho et ai

Diffuusiomallien ympärillä olevaa puomia ruokkii uloskäyntisuuria generatiivisia tekstistä kuvaksi -malleja. Varmasti monet lukijat ovat nähneet DALL·E 2:n, MidJourneyn, Imagenin tai Stable Diffusionin tuottamat tulokset. Jotkut taiteilijat ja kuvittajat pelkäävät, että hermoverkot vievät heidän työnsä, kun taas toiset uskovat, että tämä vain auttaa luovassa prosessissa. Ohjelmoijat ja taiteilijat hallitsevat nopean suunnittelun - taidon valita tekstiä tarkempien sukupolvien tulosten saamiseksi - ja jakavat mielenkiintoisia pyyntöjä ja yhtä mielenkiintoisia tuloksia.

Lofin avaruusolioiden hyökkäys rentoutumaan ja opiskelemaan (Midjourney-hermoverkkoon) 

1600-luvun maalaus The Beatlesista (Model Stable Diffusion 2.1)

Lohikäärmehedelmä karatevyöllään lumessa (Imagen-malli)

Miten diffuusiomallit toimivat?

Diffuusiomallit ovat iteratiivisia malleja, jotkahyväksy satunnainen kohina tulona. Aluksi harkitse yksinkertaisinta diffuusiomallia, DDPM (Denoising Diffusion Probabilistic Model), jonka ovat esittäneet Ho et al. Tätä mallia opetetaan askel askeleelta satojen tuhansien kuvien otokselle, jossa jokaisessa vaiheessa näytteen kuvaan kohdistetaan jonkin tunnetun voimakkuuden satunnaista kohinaa, ja malli oppii kääntämään tämän kohinan päinvastaiseksi parantaen siten kuvan laatua. Jos harjoitellaan harjoitettua mallia iteratiivisesti tällä tavalla täysin satunnaisen kohinan kuvaan, joka käännetään "heikko" kohina jokaisessa vaiheessa, malli voi luoda täysin uuden kuvan, päästäen vähitellen eroon satunnaisesta kohinasta - käyttämällä takaisindiffuusiota.

Kuva diffuusion perusprosessista (CVPR 2022 -opetusohjelmasta) 

Satunnainen kohina, josta syntyykuva voidaan yhdistää ehtoon - tuloksen vaatimukseen, ilmaistuna tekstissä tai muussa esimerkkikuvassa. Katsotaanpa ensin esimerkkiä SDEdit-artikkelista, jossa käyttäjä osoittaa hermoverkkoon piirustuksen, joka koostuu suurista vedoista. Tämä piirros on edelleen kohinainen niin paljon, että sitä ei voi erottaa esimerkiksi kohinaisesta valokuvasta, ja sitten käytetään iteratiivista takaisindiffuusioprosessia, joka rekonstruoi korkealaatuisen kuvan toimitetun piirustuksen perusteella. 

Kuva kuviopohjaisesta diffuusioprosessista (SDEdit-artikkelista)

Toinen tapa ohjata sukupolvi haluttuun suuntaantuloksena on mallin ehdollistaminen tekstin avulla. Tätä varten käytetään kielimalleja, jotka koulutetaan kuvapareihin ja niiden kuvateksteihin, jotka pystyvät ymmärtämään kuvien ja tekstien merkityksen samanaikaisesti. Esimerkki tällaisesta mallista on OpenAI:n julkaisema CLIP (Contrastive Language - Image Pre-training). Tämä malli pystyy kääntämään kuvat ja tekstit yhteiseen piilevään vektoriavaruuteen (jossa vektori on vain joidenkin arvojen sarake). Tässä tilassa on mahdollista löytää esimerkiksi lähimmät kuvat johonkin tekstikyselyyn, koska kyseessä on vain algebrallinen operaatio vektoreille.

Piilevä diffuusiomalli,Vuonna 2021 esitelty malli ehdollistaa tekstien vektoriavaruuteen kuvien luomiseksi suuntakohinasta. Tämä malli käyttää tekstien ja kuvien yhteisen piilevän tilan ominaisuuksia. Stable Diffusion, Imagen ja muut suuret tekstistä kuvaksi -hermoverkot toimivat tällä periaatteella.

Toinen tärkeä tekniikka, joka parantaa laatuasukupolvi, jota käytetään koulutuksessa ehdollisissa diffuusiomalleissa, on luokittamaton opastus. Yksinkertaisesti sanottuna, mitä suurempi luokittelijan vapaan opastuksen parametrin arvo on, sitä enemmän tulos muistuttaa tekstikyselyä, mikä usein merkitsee vähemmän vaihtelua tuloksissa.

Diffuusiomallien ongelmat

Diffuusiomallit eivät tietenkään oleuniversaali ratkaisu kuvan luomisen ongelmaan. Niissä on edelleen samat ongelmat kuin GANissa - ensi silmäyksellä todellisissa kuvissa on merkittäviä haittoja - luoduilla ihmisillä voi olla enemmän kuin viisi sormea tai 32 hammasta. Lisäksi nämä mallit ovat melko huonoja luomaan tekstiä kuviin ja jopa keksivät oman "kielensä".

Taiteilijat syyttävät keskimatkaa ja vakautta tekoälyä(Stable Diffusionin takana oleva yritys) tekijänoikeusrikkomuksesta koulutustietojen valmistelussa - he väittävät, että yritykset latasivat kuvia Internetistä ilman taiteilijoiden suostumusta tai asianmukaista korvausta. On myös kasvava huoli siitä, että generatiiviset verkostot, mukaan lukien Stable Diffusion, vahvistavat kielteisiä stereotypioita rodusta, sukupuolesta ja muista sosiaalisista ongelmista, koska ne ovat koulutettuja Internetistä saatujen puolueellisten tietojen perusteella. 

Tarina Adamista ja Eevasta, Nooasta ja Zeuksesta DC Comicsin tyyliin (malli DALL·E 2) 

Kuinka kokeilla ilmaiseksi

Toisin kuin monet aiemmat kehitystyötTietokonenäön alueilla, jotka olivat usein vain ohjelmoijien saatavilla, uusia tekniikoita diffuusioverkkojen alalla voivat usein kokeilla kaikki. Yleinen suuntaus kohti avoimen lähdekoodin ohjelmistoja ja neuroverkkojen demoversioiden julkaisemista mahdollistaa sen, että Hugging Facen kaltaiset startup-yritykset voivat yhdistää useita malleja, esimerkiksi Stable Diffusion 2.1 -versioita. He kehittävät myös diffuusorikirjastoa, joka on suunniteltu yksinkertaistamaan mallien käyttöä koodissa. 

Google Colab -palvelun avulla voit suorittaa koodiaGPU ja TPU, joten monet harrastajat käyttävät niitä julkaistakseen versionsa mallista, esimerkiksi Disco Diffusion Warp -mallin, joka pystyy muuttamaan videon tyyliä. 

Malleissa on myös käteviä käyttöliittymiä.Joten MidJourney-hermoverkossa on ilmainen kokeiluversio useille kymmenille sukupolville, mikä riittää kokeilemaan tekstistä kuvaksi -malleja. OpenAI tarjoaa myös DALL·E 2 -mallin kokeiluversion.

Mitä seuraavaksi

Voimme vakuuttavasti sanoa, että elämme kulta-aikaahermoverkkokuvan luomisen aikakausi. Yhteisö odottaa innolla tulevia tuotteita Googlelta, joka on julkaissut yksityisen diffuusiomallin Imagenin ja suuren määrän artikkeleita kuvien muokkaamisesta ja luomisesta, mukaan lukien muiden tekoälytekniikoiden käyttämisestä. 

Uusia startuppeja syntyy luomisen jakuvankäsittely, joka kilpailee menestyksekkäästi jättiläisten, kuten OpenAI tai Google, kanssa. Uusia artikkeleita diffuusiomalleista julkaistaan lähes viikoittain, ja niiden käyttöalue ei nykyään rajoitu lueteltuihin 2D-tietokonenäön tehtäviin - niitä käytetään lääketieteellisissä kuvantamistehtävissä, videoiden generoinnissa ja 3D-tekstissä. 

Lue lisää:

Jupiterin satelliitin punaisten raitojen mysteeri paljastuu

Löytyi "mahdoton" planeetta. Hän uhmaa modernia tiedettä

Salaperäiset kuusikulmainen "hunajakennot" suola-aavioissa löysivät selityksen

Geek Tech verkossa

Kaikki teknologiasta ja gadgeteista

Kuinka tekoäly luo kuvia. ML-insinööri selittää