Come l'intelligenza artificiale genera immagini. Spiega l'ingegnere ML

Reti avversarie generative e loro carenze

Solo pochi anni fa, modelli all'avanguardia in questi

i compiti erano considerati generativi-antagonistireti neurali (reti generative avversarie o GAN), proposte nel 2014 da Goodfellow et al e sono state significativamente migliorate negli ultimi nove anni. Ad esempio, il modello StyleGAN 3 del 2021 conserva accuratamente i dettagli del viso anche con spostamenti e rotazioni, mentre i suoi predecessori generano in questo caso dettagli “rumorosi”, come capelli, barbe o modelli di vestiti. Professionisti e appassionati si sono meravigliati di quanto bene i GAN riescano a generare foto di persone, animali o appartamenti inesistenti.

Tuttavia, a causa della natura competitivaI modelli GAN sono molto instabili durante l'addestramento e non mostrano una grande varietà di tipi di immagini quando vengono generati. Inoltre, sono scarsamente applicabili nel compito di generare immagini dal testo, sebbene esistano esempi di ciò.

Risultati della generazione di immagini da parte del modello StyleGAN 3

Il boom dei modelli di diffusione

I modelli di diffusione, al contrario, sìsufficiente variabilità delle immagini generate e sono abbastanza stabili. Il loro principale svantaggio è la velocità di apprendimento e generazione. Sono necessarie dozzine o addirittura centinaia di schede video per addestrare un modello e la generazione di un'immagine utilizzando un modello già addestrato richiede diversi secondi, a differenza di GAN, dove il conteggio arriva a decine di millisecondi.

I risultati della generazione dal modello di diffusione di Ho et al

Il boom dei modelli di diffusione è alimentato dall'uscitagrandi modelli generativi da testo a immagine. Sicuramente molti lettori hanno visto i risultati generati da DALL·E 2, MidJourney, Imagen o Stable Diffusion. Alcuni artisti e illustratori temono che le reti neurali porteranno via il loro lavoro, mentre altri credono che questo aiuterà solo nel processo creativo. Programmatori e artisti padroneggiano il prompt engineering - l'arte di selezionare il testo per ottenere risultati di generazione più accurati - e condividono richieste interessanti e risultati non meno interessanti.

Invasione aliena Lofi per rilassarsi e studiare (rete neurale di metà viaggio) 

Dipinto del XVII secolo dei Beatles (Modello diffusione stabile 2.1)

Un frutto del drago che indossa una cintura da karate nella neve (modello Imagen)

Come funzionano i modelli di diffusione?

I modelli di diffusione sono modelli iterativi cheaccettare il rumore casuale come input. Per iniziare, si consideri il modello di diffusione più basilare, DDPM (Denoising Diffusion Probabilistic Model), presentato da Ho et al. Questo modello viene addestrato passo dopo passo su un campione di centinaia di migliaia di immagini, in cui ad ogni passaggio all'immagine del campione viene applicato un rumore casuale di una forza nota e il modello impara a invertire questo rumore, migliorando così la qualità dell'immagine. Se applichiamo in modo iterativo il modello addestrato in questo modo a un'immagine di rumore completamente casuale, invertendo il rumore "debole" ad ogni passaggio, il modello può generare un'immagine completamente nuova, eliminando gradualmente il rumore casuale, utilizzando la retrodiffusione.

Illustrazione del processo di diffusione di base (dal tutorial CVPR 2022) 

Rumore casuale da cui viene generatol'immagine può essere combinata con una condizione: un requisito per un risultato, espresso in testo o in un'altra immagine di esempio. Innanzitutto, consideriamo un esempio tratto dall'articolo SDEdit, in cui l'utente indica alla rete neurale un disegno composto da grandi tratti. Questo disegno è ulteriormente rumoroso al punto in cui non può essere distinto, ad esempio, da una fotografia rumorosa, e quindi viene applicato un processo iterativo di retrodiffusione, che ricostruisce un'immagine di alta qualità basata sul disegno fornito. 

Un'illustrazione del processo di diffusione basato su modelli (dall'articolo SDEdit)

Un altro modo per dirigere la generazione verso il desideratoil risultato è il condizionamento del modello da parte del testo. Per fare questo vengono utilizzati modelli linguistici, addestrati su coppie di immagini e didascalie ad esse, che sono in grado di comprendere il significato di immagini e testi allo stesso tempo. Un esempio di tale modello è CLIP (Contrastive Language - Image Pre-training) rilasciato da OpenAI. Questo modello è in grado di tradurre immagini e testi in uno spazio vettoriale latente comune (dove un vettore è solo una colonna di alcuni valori). In questo spazio diventa, ad esempio, possibile trovare le immagini più vicine a qualche interrogazione testuale, poiché si tratta solo di un'operazione algebrica sui vettori.

Modello di diffusione latente,introdotto nel 2021 condiziona un modello su uno spazio vettoriale di testi per generare immagini dal rumore direzionale. Questo modello utilizza le proprietà dello spazio latente comune di testi e immagini. Stable Diffusion, Imagen e altre grandi reti neurali text-to-image funzionano su questo principio.

Un'altra tecnica importante che migliora la qualitàLa generazione utilizzata nei modelli di diffusione condizionata dall'addestramento è la guida libera del classificatore. In termini semplici, maggiore è il valore del parametro Classifier Free Guidance, più il risultato assomiglia a una query di testo, il che spesso si traduce in una minore variabilità nei risultati.

Problemi di modelli di diffusione

Naturalmente, i modelli di diffusione non lo sonosoluzione universale per il problema della generazione di immagini. Sono ancora soggetti agli stessi problemi dei GAN - a prima vista, le immagini reali presentano svantaggi significativi - le persone generate possono avere più di cinque dita o 32 denti. Inoltre, questi modelli non riescono a generare testo sulle immagini e persino a inventare il proprio "linguaggio".

Gli artisti danno la colpa a Midjourney e alla stabilità dell'intelligenza artificiale(la società dietro Stable Diffusion) per violazione del diritto d'autore nella preparazione dei dati di formazione - sostengono che le società hanno scaricato immagini da Internet senza il consenso degli artisti o un adeguato compenso. Vi è inoltre una crescente preoccupazione che le reti generative, inclusa Stable Diffusion, rafforzino gli stereotipi negativi su razza, genere e altre questioni sociali perché sono addestrate su dati distorti ottenuti da Internet. 

La storia di Adamo ed Eva, Noè e Zeus nello stile della DC Comics (modello DALL·E 2) 

Come provare gratuitamente

A differenza di molti sviluppi precedenti inaree della visione artificiale che spesso erano accessibili solo ai programmatori, le nuove tecnologie nel campo delle reti di diffusione possono spesso essere provate da tutti. La tendenza generale verso il software open source e la pubblicazione di versioni demo delle reti neurali consente a startup come Hugging Face di aggregare molte versioni di modelli, ad esempio Stable Diffusion 2.1. Stanno inoltre sviluppando la libreria diffusers, progettata per semplificare l'uso dei modelli nel codice. 

Il servizio Google Colab ti consente di eseguire codice suGPU e TPU, tanti appassionati lo utilizzano per pubblicare le loro versioni del modello, ad esempio il modello Disco Diffusion Warp, che è in grado di cambiare lo stile del video. 

Ci sono anche comode interfacce per i modelli.Quindi, la rete neurale MidJourney ha una versione di prova gratuita per diverse dozzine di generazioni, che è sufficiente per provare i modelli di testo in immagine. OpenAI fornisce anche un accesso di prova al modello DALL·E 2.

Cosa c'è dopo

Possiamo affermare con sicurezza che stiamo vivendo un’età dell’orol’era della generazione di immagini di reti neurali. La comunità attende con impazienza i futuri prodotti di Google, che ha rilasciato il modello di diffusione privata Imagen e un gran numero di articoli sull'editing e la generazione di immagini, compreso l'utilizzo di altre tecnologie di intelligenza artificiale. 

Nuove startup stanno emergendo nel campo della creazione eediting di immagini che compete con successo con giganti come OpenAI o Google. Quasi settimanalmente vengono pubblicati nuovi articoli sui modelli di diffusione e l'ambito della loro applicazione oggi non si limita ai compiti elencati della visione artificiale 2D: vengono utilizzati in attività di imaging medico, generazione di video e testo 3D.

Leggi di più:

Viene svelato il mistero delle strisce rosse sul satellite di Giove

Trovato pianeta "impossibile". Sfida la scienza moderna

Misteriosi "favi" esagonali nei deserti di sale hanno trovato una spiegazione

Tecnologia geek in linea

Tutto sulla tecnologia e sui gadget