Hoe kunstmatige intelligentie beelden genereert. ML-ingenieur legt uit

Generatieve vijandige netwerken en hun tekortkomingen

Nog maar een paar jaar geleden zaten er state-of-the-art modellen in

taken werden als generatief-tegenstrijdig beschouwdneurale netwerken (generatieve vijandige netwerken of GAN's), die in 2014 werden voorgesteld door Goodfellow et al. en de afgelopen negen jaar aanzienlijk zijn verbeterd. Het StyleGAN 3-model uit 2021 behoudt bijvoorbeeld nauwkeurig gezichtsdetails, zelfs bij verschuivingen en rotaties, terwijl zijn voorgangers in dit geval ‘luidruchtige’ details genereren, zoals haar, baarden of kledingpatronen. Professionals en enthousiastelingen hebben zich verbaasd over hoe goed GAN's foto's kunnen genereren van niet-bestaande mensen, dieren of appartementen.

Echter vanwege het competitieve karakterGAN-modellen zijn erg onstabiel tijdens training en ze laten bij het genereren niet een erg grote verscheidenheid aan afbeeldingstypen zien. Bovendien zijn ze slecht toepasbaar bij het genereren van afbeeldingen uit tekst, hoewel er voorbeelden van bestaan.

Resultaten van het genereren van afbeeldingen door het StyleGAN 3-model

De hausse in diffusiemodellen

Verspreidingsmodellen daarentegen welvoldoende variabiliteit van de gegenereerde afbeeldingen en zijn redelijk stabiel. Hun grootste nadeel is de snelheid van leren en genereren. Er zijn tientallen of zelfs honderden videokaarten nodig om een model te trainen, en het genereren van een afbeelding met een reeds getraind model duurt enkele seconden, in tegenstelling tot GAN, waar de telling tot tientallen milliseconden gaat.

Generatieresultaten van het diffusiemodel van Ho et al

De hausse rond diffusiemodellen wordt aangewakkerd door de exitgrote generatieve tekst-naar-beeld-modellen. Zeker, veel lezers hebben de resultaten gezien die zijn gegenereerd door DALL·E 2, MidJourney, Imagen of Stable Diffusion. Sommige kunstenaars en illustratoren zijn bang dat neurale netwerken hun werk wegnemen, terwijl anderen denken dat dit alleen maar helpt bij het creatieve proces. Programmeurs en artiesten beheersen prompt engineering - de kunst van het selecteren van tekst om nauwkeurigere generatieresultaten te krijgen - en delen interessante verzoeken en niet minder interessante resultaten.

Lofi buitenaardse invasie om te ontspannen en te studeren (Midjourney neuraal netwerk) 

17e-eeuws schilderij van The Beatles (Model Stable Diffusion 2.1)

Een drakenfruit met een karateriem in de sneeuw (Afbeelding model)

Hoe werken diffusiemodellen?

Diffusiemodellen zijn iteratieve modellen dieaccepteer willekeurige ruis als invoer. Overweeg om te beginnen het meest basale diffusiemodel, DDPM (Denoising Diffusion Probabilistic Model), gepresenteerd door Ho et al. Dit model wordt stap voor stap getraind op een steekproef van honderdduizenden afbeeldingen, waarbij bij elke stap willekeurige ruis van een bekende sterkte wordt toegepast op de afbeelding van de steekproef, en het model leert deze ruis om te keren, waardoor de beeldkwaliteit wordt verbeterd. Als we het getrainde model op deze manier iteratief toepassen op een beeld van volledig willekeurige ruis, waarbij "zwakke" ruis bij elke stap wordt omgekeerd, kan het model een volledig nieuw beeld genereren, waarbij geleidelijk willekeurige ruis wordt verwijderd - met behulp van terugdiffusie.

Illustratie van het basisdiffusieproces (uit de CVPR 2022-tutorial) 

Er wordt willekeurig geluid gegenereerdafbeelding kan worden gecombineerd met een voorwaarde - een vereiste voor een resultaat, uitgedrukt in tekst of een ander voorbeeldafbeelding. Laten we eerst eens kijken naar een voorbeeld uit het SDEdit-artikel, waarin de gebruiker aan het neurale netwerk een tekening aangeeft die uit grote lijnen bestaat. Deze tekening is verder zo ruisachtig dat deze niet meer te onderscheiden is van bijvoorbeeld een foto met ruis, en vervolgens wordt een iteratief terugdiffusieproces toegepast, dat een afbeelding van hoge kwaliteit reconstrueert op basis van de aangeleverde tekening.

Een illustratie van het patroongestuurde diffusieproces (uit het SDEdit-artikel)

Een andere manier om de generatie naar het gewenste te leidenhet resultaat is de conditionering van het model door de tekst. Hiervoor worden taalmodellen gebruikt, getraind op paren van afbeeldingen en bijschriften, die tegelijkertijd de betekenis van afbeeldingen en teksten kunnen begrijpen. Een voorbeeld van zo'n model is CLIP (Contrastive Language - Image Pre-training) uitgebracht door OpenAI. Dit model kan afbeeldingen en teksten vertalen naar een gemeenschappelijke latente vectorruimte (waarbij een vector slechts een kolom is met enkele waarden). In deze ruimte wordt het bijvoorbeeld mogelijk om de afbeeldingen te vinden die het dichtst bij een tekstquery liggen, aangezien dit slechts een algebraïsche bewerking op vectoren is.

Latent diffusiemodel,geïntroduceerd in 2021 stelt een model voor op een vectorruimte van teksten om afbeeldingen te genereren op basis van richtingsruis. Dit model maakt gebruik van de eigenschappen van de gemeenschappelijke latente ruimte van teksten en afbeeldingen. Stabiele diffusie, Imagen en andere grote neurale netwerken van tekst naar afbeelding werken volgens dit principe.

Een andere belangrijke techniek die de kwaliteit verbetertgeneratie die wordt gebruikt bij het trainen van geconditioneerde diffusiemodellen is de classificatievrije begeleiding. Simpel gezegd, hoe hoger de waarde van de classifier free guidance-parameter, hoe meer het resultaat lijkt op een tekstquery, wat zich vaak vertaalt in minder variabiliteit in de resultaten.

Problemen met diffusiemodellen

Natuurlijk zijn diffusiemodellen dat nietuniversele oplossing voor het probleem van het genereren van afbeeldingen. Ze zijn nog steeds onderhevig aan dezelfde problemen als GAN's - op het eerste gezicht hebben echte afbeeldingen aanzienlijke nadelen - gegenereerde mensen kunnen meer dan vijf vingers of 32 tanden hebben. Ook zijn deze modellen vrij slecht in het genereren van tekst op afbeeldingen en bedenken ze zelfs hun eigen "taal".

Artiesten geven de schuld aan Midjourney en Stability AI(het bedrijf achter Stable Diffusion) wegens inbreuk op het auteursrecht bij het voorbereiden van trainingsgegevens - zij beweren dat de bedrijven afbeeldingen van internet hebben gedownload zonder de toestemming van de artiesten of een passende compensatie. Er bestaat ook een groeiende bezorgdheid dat generatieve netwerken, waaronder Stable Diffusion, negatieve stereotypen over ras, geslacht en andere sociale kwesties versterken, omdat ze zijn getraind op bevooroordeelde gegevens verkregen van internet.

Het verhaal van Adam en Eva, Noach en Zeus in de stijl van DC Comics (model DALL·E 2) 

Hoe u het gratis kunt proberen

In tegenstelling tot veel eerdere ontwikkelingen ingebieden van computer vision die vaak alleen toegankelijk waren voor programmeurs, kunnen nieuwe technologieën op het gebied van diffusienetwerken vaak door iedereen worden uitgeprobeerd. De algemene trend naar open source software en het publiceren van demoversies van neurale netwerken stelt startups als Hugging Face in staat vele versies van modellen samen te voegen, bijvoorbeeld Stable Diffusion 2.1. Ze ontwikkelen ook de diffusersbibliotheek, die is ontworpen om het gebruik van modellen in code te vereenvoudigen.

Met de Google Colab-service kunt u code uitvoerenGPU en TPU, zoveel enthousiastelingen gebruiken het om hun versies van het model te publiceren, bijvoorbeeld het Disco Diffusion Warp-model, dat in staat is de stijl van de video te veranderen.

Er zijn ook handige interfaces naar modellen.Het neurale netwerk van MidJourney heeft dus een gratis proefversie voor enkele tientallen generaties, wat genoeg is om tekst-naar-beeld-modellen uit te proberen. OpenAI biedt ook proeftoegang tot het DALL·E 2-model.

What's next

We kunnen vol vertrouwen zeggen dat we een gouden eeuw belevenhet tijdperk van het genereren van neurale netwerkbeelden. De gemeenschap kijkt reikhalzend uit naar toekomstige producten van Google, dat het privé-diffusiemodel Imagen heeft uitgebracht en een groot aantal artikelen over het bewerken en genereren van afbeeldingen, inclusief het gebruik van andere kunstmatige intelligentietechnologieën.

Er ontstaan nieuwe startups op het gebied van creëren enbeeldbewerking die succesvol concurreert met giganten als OpenAI of Google. Er worden bijna wekelijks nieuwe artikelen over diffusiemodellen gepubliceerd, en de reikwijdte van hun toepassing is tegenwoordig niet beperkt tot de genoemde taken van 2D-computervisie; ze worden gebruikt bij medische beeldvormingstaken, het genereren van video's en 3D-tekst.

Lees verder:

Het mysterie van de rode strepen op de satelliet van Jupiter wordt onthuld

Gevonden "onmogelijke" planeet. Ze tart de moderne wetenschap

Mysterieuze zeshoekige "honingraten" in zoutwoestijnen hebben een verklaring gevonden

Geek Tech Online

Alles over technologie en gadgets