Wie künstliche Intelligenz Bilder generiert. ML-Ingenieur erklärt

Generative Adversarial Networks und ihre Schwächen

Noch vor wenigen Jahren waren in diesen hochmoderne Modelle verbaut

Aufgaben galten als generativ-kontradiktorischneuronale Netze (Generative Adversarial Networks oder GANs), die 2014 von Goodfellow et al. vorgeschlagen und in den letzten neun Jahren erheblich verbessert wurden. Beispielsweise behält das Modell 2021 StyleGAN 3 Gesichtsdetails auch bei Verschiebungen und Drehungen präzise bei, während seine Vorgänger in diesem Fall „verrauschte“ Details wie Haare, Bärte oder Kleidungsmuster erzeugen. Fachleute und Enthusiasten staunten darüber, wie gut GANs Fotos von nicht existierenden Menschen, Tieren oder Wohnungen erzeugen können.

Allerdings aufgrund des WettbewerbscharaktersGAN-Modelle sind beim Training sehr instabil und zeigen bei der Generierung keine sehr große Vielfalt an Bildtypen. Außerdem sind sie bei der Aufgabe, Bilder aus Text zu erzeugen, schlecht anwendbar, obwohl Beispiele dafür existieren.

Ergebnisse der Bildgenerierung nach dem StyleGAN 3-Modell

Der Boom der Diffusionsmodelle

Diffusionsmodelle dagegen habenausreichende Variabilität der erzeugten Bilder und sind recht stabil. Ihr Hauptnachteil ist die Geschwindigkeit des Lernens und der Generierung. Dutzende oder sogar Hunderte von Videokarten werden benötigt, um ein Modell zu trainieren, und das Generieren eines Bildes mit einem bereits trainierten Modell dauert mehrere Sekunden, im Gegensatz zu GAN, wo die Zählung bis zu mehreren zehn Millisekunden geht.

Erzeugungsergebnisse aus dem Diffusionsmodell von Ho et al

Der Boom um Diffusionsmodelle wird durch den Exit befeuertgroße generative Text-zu-Bild-Modelle. Sicherlich haben viele Leser die Ergebnisse von DALL·E 2, MidJourney, Imagen oder Stable Diffusion gesehen. Einige Künstler und Illustratoren befürchten, dass neuronale Netze ihnen ihre Arbeit nehmen, während andere glauben, dass dies nur im kreativen Prozess helfen wird. Programmierer und Künstler beherrschen das Prompt Engineering - die Kunst, Text auszuwählen, um genauere Generierungsergebnisse zu erhalten - und teilen interessante Anfragen und nicht weniger interessante Ergebnisse.

Lofi-Alien-Invasion zum Entspannen und Lernen (Midjourney Neuronal Network) 

Gemälde der Beatles aus dem 17. Jahrhundert (Model Stable Diffusion 2.1)

Eine Drachenfrucht mit Karategürtel im Schnee (Bildmodell)

Wie funktionieren Diffusionsmodelle?

Diffusionsmodelle sind iterative Modelle, dieakzeptieren zufälliges Rauschen als Eingabe. Betrachten Sie zunächst das grundlegendste Diffusionsmodell, DDPM (Denoising Diffusion Probabilistic Model), das von Ho et al. Dieses Modell wird Schritt für Schritt an einer Stichprobe von Hunderttausenden von Bildern trainiert, wobei bei jedem Schritt zufälliges Rauschen einer bekannten Stärke auf das Bild aus der Stichprobe angewendet wird, und das Modell lernt, dieses Rauschen umzukehren, wodurch die Bildqualität verbessert wird. Wenn wir das trainierte Modell auf diese Weise iterativ auf ein Bild mit völlig zufälligem Rauschen anwenden und dabei "schwaches" Rauschen bei jedem Schritt invertieren, kann das Modell ein völlig neues Bild erzeugen und zufälliges Rauschen nach und nach beseitigen - durch Rückdiffusion.

Veranschaulichung des grundlegenden Diffusionsprozesses (aus dem CVPR 2022-Tutorial) 

Zufälliges Rauschen, das erzeugt wirdDas Bild kann mit einer Bedingung kombiniert werden – einer Anforderung für ein Ergebnis, ausgedrückt in Text oder einem anderen Beispielbild. Schauen wir uns zunächst ein Beispiel aus dem SDEdit-Artikel an, in dem der Benutzer dem neuronalen Netzwerk eine Zeichnung anzeigt, die aus großen Strichen besteht. Diese Zeichnung ist so stark verrauscht, dass sie beispielsweise nicht mehr von einem verrauschten Foto unterschieden werden kann. Anschließend wird ein iterativer Rückdiffusionsprozess angewendet, der auf der Grundlage der bereitgestellten Zeichnung ein qualitativ hochwertiges Bild rekonstruiert.

Eine Illustration des mustergesteuerten Diffusionsprozesses (aus dem SDEdit-Artikel)

Eine andere Möglichkeit, die Generation auf das Gewünschte zu lenkendas Ergebnis ist die Konditionierung des Modells durch den Text. Dazu werden Sprachmodelle verwendet, die an Paaren von Bildern und Bildunterschriften dazu trainiert werden, die in der Lage sind, die Bedeutung von Bildern und Texten gleichzeitig zu verstehen. Ein Beispiel für ein solches Modell ist CLIP (Contrastive Language – Image Pre-training), veröffentlicht von OpenAI. Dieses Modell ist in der Lage, Bilder und Texte in einen gemeinsamen latenten Vektorraum zu übersetzen (wobei ein Vektor nur eine Spalte einiger Werte ist). In diesem Raum wird es beispielsweise möglich, die nächstgelegenen Bilder zu einer Textabfrage zu finden, da dies nur eine algebraische Operation mit Vektoren ist.

Latentes Diffusionsmodell,2021 eingeführt, konditioniert ein Modell auf einem Vektorraum von Texten, um Bilder aus Richtungsrauschen zu erzeugen. Dieses Modell nutzt die Eigenschaften des gemeinsamen latenten Raums von Texten und Bildern. Stable Diffusion, Imagen und andere große neuronale Text-zu-Bild-Netzwerke arbeiten nach diesem Prinzip.

Eine weitere wichtige Technik, die die Qualität verbessertGeneration, die beim Training konditionierter Diffusionsmodelle verwendet wird, ist die klassifiziererfreie Führung. Einfach ausgedrückt: Je höher der Wert des Klassifikator-freien Führungsparameters, desto mehr ähnelt das Ergebnis einer Textabfrage, was häufig zu einer geringeren Variabilität der Ergebnisse führt.

Probleme von Diffusionsmodellen

Diffusionsmodelle sind das natürlich nichtuniverselle Lösung für das Problem der Bilderzeugung. Sie unterliegen immer noch den gleichen Problemen wie GANs – auf den ersten Blick haben echte Bilder erhebliche Nachteile – erzeugte Menschen können mehr als fünf Finger oder 32 Zähne haben. Außerdem sind diese Modelle ziemlich schlecht darin, Text auf Bildern zu generieren und erfinden sogar ihre eigene „Sprache“.

Künstler geben Midjourney und Stabilitäts-KI die Schuld(das Unternehmen hinter Stable Diffusion) wegen Urheberrechtsverletzung bei der Aufbereitung von Trainingsdaten – sie behaupten, dass die Unternehmen Bilder aus dem Internet heruntergeladen hätten, ohne die Zustimmung der Künstler oder eine angemessene Entschädigung einzuholen. Es besteht auch eine wachsende Sorge, dass generative Netzwerke, einschließlich Stable Diffusion, negative Stereotypen über Rasse, Geschlecht und andere soziale Themen verstärken, weil sie auf voreingenommenen Daten aus dem Internet trainiert werden.

Die Geschichte von Adam und Eva, Noah und Zeus im Stil von DC Comics (Modell DALL·E 2) 

So testen Sie kostenlos

Im Gegensatz zu vielen früheren Entwicklungen inBereiche des Computersehens, die oft nur Programmierern zugänglich waren, können neue Technologien im Bereich der Diffusionsnetzwerke oft von jedem ausprobiert werden. Der allgemeine Trend zu Open-Source-Software und der Veröffentlichung von Demoversionen neuronaler Netze ermöglicht es Startups wie Hugging Face, viele Versionen von Modellen zu aggregieren, beispielsweise Stable Diffusion 2.1. Sie entwickeln außerdem die Diffusoren-Bibliothek, die die Verwendung von Modellen im Code vereinfachen soll.

Mit dem Google Colab-Dienst können Sie Code ausführenGPU und TPU, daher verwenden viele Enthusiasten es, um ihre Versionen des Modells zu veröffentlichen, zum Beispiel das Disco Diffusion Warp-Modell, das den Stil des Videos ändern kann. 

Es gibt auch komfortable Schnittstellen zu Modellen.Das neuronale Netzwerk MidJourney hat also eine kostenlose Testversion für mehrere Dutzend Generationen, die ausreicht, um Text-zu-Bild-Modelle auszuprobieren. OpenAI bietet auch Testzugriff auf das DALL·E 2-Modell.

Was weiter

Wir können getrost sagen, dass wir ein goldenes Zeitalter erlebendie Ära der Bilderzeugung durch neuronale Netze. Die Community wartet gespannt auf zukünftige Produkte von Google, das das private Verbreitungsmodell Imagen und eine Vielzahl von Artikeln zur Bildbearbeitung und -generierung, einschließlich der Verwendung anderer Technologien der künstlichen Intelligenz, veröffentlicht hat. 

Neue Startups entstehen im Bereich der Erstellung undBildbearbeitung, die erfolgreich mit Giganten wie OpenAI oder Google konkurriert. Fast wöchentlich werden neue Artikel über Diffusionsmodelle veröffentlicht, und ihr Anwendungsbereich ist heute nicht auf die aufgeführten Aufgaben der 2D-Computervision beschränkt – sie werden auch bei medizinischen Bildgebungsaufgaben, der Videogenerierung und 3D-Text verwendet.

Weiter lesen:

Das Geheimnis der roten Streifen auf dem Satelliten des Jupiter wird gelüftet

"Unmöglichen" Planeten gefunden. Sie trotzt der modernen Wissenschaft

Geheimnisvolle sechseckige "Waben" in Salzwüsten fanden eine Erklärung

Geek Tech Online

Alles über Technik und Gadgets