Hur artificiell intelligens genererar bilder. ML Engineer Explains

Generativa kontradiktoriska nätverk och deras brister

För bara några år sedan, toppmoderna modeller inom dessa

uppgifter ansågs generativt-motstridandeneurala nätverk (generativa motstridiga nätverk eller GAN), som föreslogs 2014 av Goodfellow et al och som har förbättrats avsevärt under de senaste nio åren. Till exempel, 2021 StyleGAN 3-modellen bevarar noggrant ansiktsdetaljer även med skiftningar och rotationer, medan dess föregångare genererar "bullriga" detaljer i det här fallet, som hår, skägg eller klädmönster. Proffs och entusiaster har förundrats över hur väl GAN kan generera foton av obefintliga människor, djur eller lägenheter.

Men på grund av konkurrenskraftenGAN-modeller är mycket instabila i träning, och de visar inte en mycket stor variation av bildtyper när de genereras. Dessutom är de dåligt applicerbara i uppgiften att generera bilder från text, även om det finns exempel på detta.

Resultat av bildgenerering av StyleGAN 3-modell

Bommen i diffusionsmodeller

Diffusionsmodeller har tvärtomtillräcklig variation av de genererade bilderna och är ganska stabila. Deras största nackdel är inlärnings- och genereringshastigheten. Dussintals eller till och med hundratals grafikkort behövs för att träna en modell, och att generera en bild med en redan tränad modell tar flera sekunder, till skillnad från GAN, där räkningen går till tiotals millisekunder.

Generering resultat från diffusionsmodellen av Ho et al

Bommen kring diffusionsmodeller drivs av utgångenstora generativa text-till-bild-modeller. Säkert många läsare har sett resultaten genererade av DALL·E 2, MidJourney, Imagen eller Stable Diffusion. Vissa konstnärer och illustratörer oroar sig för att neurala nätverk ska ta bort deras arbete, medan andra tror att detta bara kommer att hjälpa i den kreativa processen. Programmerare och konstnärer behärskar prompt ingenjörskonst - konsten att välja text för att få mer exakta genereringsresultat - och delar intressanta förfrågningar och inte mindre intressanta resultat.

Lofi utomjordisk invasion för att koppla av och studera till (Midjourney neurala nätverk) 

1600-talsmålning av The Beatles (Model Stable Diffusion 2.1)

En drakfrukt som bär karatebälte i snön (bildmodell)

Hur fungerar diffusionsmodeller?

Diffusionsmodeller är iterativa modeller somacceptera slumpmässigt brus som input. Till att börja med, överväga den mest grundläggande diffusionsmodellen, DDPM (Denoising Diffusion Probabilistic Model), presenterad av Ho et al. Denna modell tränas steg för steg på ett urval av hundratusentals bilder, där slumpmässigt brus av viss känd styrka appliceras på bilden från provet vid varje steg, och modellen lär sig att vända detta brus och på så sätt förbättra bildkvaliteten. Om vi iterativt applicerar den tränade modellen på detta sätt på en bild av helt slumpmässigt brus, och inverterar "svagt" brus vid varje steg, kan modellen generera en helt ny bild som gradvis blir av med slumpmässigt brus - med hjälp av bakdiffusion.

Illustration av den grundläggande spridningsprocessen (från CVPR 2022 handledning) 

Slumpmässigt brus som genererasbild kan kombineras med ett villkor - ett krav på resultat, uttryckt i text eller annan exempelbild. Låt oss först titta på ett exempel från SDEdit-artikeln, där användaren anger för det neurala nätverket en ritning som består av stora streck. Denna ritning är ytterligare brusig till den grad att den inte kan särskiljas från till exempel ett brusigt fotografi, och sedan tillämpas en iterativ back-diffusionsprocess, som rekonstruerar en högkvalitativ bild baserat på den medföljande ritningen. 

En illustration av den mönsterdrivna diffusionsprocessen (från SDEdit-artikeln)

Ett annat sätt att styra generationen till det önskaderesultatet är modellens konditionering av texten. För att göra detta används språkmodeller, tränade på bildpar och bildtexter till dem, som samtidigt kan förstå innebörden av bilder och texter. Ett exempel på en sådan modell är CLIP (Contrastive Language - Image Pre-training) släppt av OpenAI. Denna modell kan översätta bilder och texter till ett gemensamt latent vektorutrymme (där en vektor bara är en kolumn med vissa värden). I detta utrymme blir det till exempel möjligt att hitta de bilder som ligger närmast någon textfråga, eftersom detta bara är en algebraisk operation på vektorer.

Latent diffusionsmodell,introducerade 2021 en modell på ett vektorrum av texter för att generera bilder från riktningsbrus. Denna modell använder egenskaperna hos det gemensamma latenta utrymmet för texter och bilder. Stabil Diffusion, Imagen och andra stora text-till-bild neurala nätverk fungerar enligt denna princip.

En annan viktig teknik som förbättrar kvalitetengeneration som används i träning av betingade diffusionsmodeller är klassificeraren gratis vägledning. Enkelt uttryckt, ju högre värde på klassificerarens gratis vägledningsparameter, desto mer liknar resultatet en textfråga, vilket ofta leder till mindre variation i resultaten.

Problem med diffusionsmodeller

Det är naturligtvis inte diffusionsmodelleruniversell lösning för problemet med bildgenerering. De är fortfarande föremål för samma problem som GAN - vid första anblicken har riktiga bilder betydande nackdelar - genererade människor kan ha mer än fem fingrar eller 32 tänder. Dessutom är dessa modeller ganska dåliga på att generera text på bilder och till och med hitta på sitt eget "språk".

Artisterna skyller på Midjourney och Stability AI(företaget bakom Stable Diffusion) för upphovsrättsintrång vid framställning av träningsdata – de hävdar att företagen laddat ner bilder från internet utan artisternas samtycke eller vederbörlig ersättning. Det finns också en växande oro för att generativa nätverk, inklusive stabil spridning, förstärker negativa stereotyper om ras, kön och andra sociala frågor eftersom de tränas på partisk data som erhålls från Internet. 

Berättelsen om Adam och Eva, Noah och Zeus i stil med DC Comics (modell DALL·E 2) 

Hur man provar gratis

Till skillnad från många tidigare utvecklingar inomområden av datorseende som ofta var tillgängliga endast för programmerare, kan ny teknik inom området diffusionsnätverk ofta prövas av alla. Den allmänna trenden mot programvara med öppen källkod och publicering av demoversioner av neurala nätverk tillåter startups som Hugging Face att samla många versioner av modeller, till exempel Stable Diffusion 2.1. De utvecklar också diffusorbiblioteket, som är utformat för att förenkla användningen av modeller i kod. 

Google Colab-tjänsten låter dig köra kod påGPU och TPU, så många entusiaster använder det för att publicera sina versioner av modellen, till exempel Disco Diffusion Warp-modellen, som kan ändra stilen på videon. 

Det finns också bekväma gränssnitt till modeller.Så det neurala nätverket MidJourney har en gratis testversion i flera dussin generationer, vilket är tillräckligt för att prova text-till-bild-modeller. OpenAI ger också provåtkomst till DALL·E 2-modellen.

Vad är nästa?

Vi kan med säkerhet säga att vi upplever en guldåldereran av bildgenerering av neurala nätverk. Gemenskapen väntar med spänning på framtida produkter från Google, som har släppt den privata spridningsmodellen Imagen och ett stort antal artiklar om bildredigering och bildgenerering, inklusive användning av andra artificiell intelligens-tekniker. 

Nya startups växer fram inom området för att skapa ochbildredigering som framgångsrikt konkurrerar med jättar som OpenAI eller Google. Nya artiklar om diffusionsmodeller publiceras nästan varje vecka, och deras tillämpningsområde idag är inte begränsat till de listade uppgifterna för 2D datorseende - de används i medicinska avbildningsuppgifter, videogenerering och 3D-text. 

Läs mer:

Mysteriet med de röda ränderna på Jupiters satellit avslöjas

Hittade en "omöjlig" planet. Hon trotsar modern vetenskap

Mystiska sexkantiga "bikakor" i saltöknar hittade en förklaring

Geek Tech Online

Allt om teknik och prylar

Hur artificiell intelligens genererar bilder. ML-ingenjör förklarar