Πώς η τεχνητή νοημοσύνη δημιουργεί εικόνες. Εξηγεί ο ML Engineer

Δημιουργικά δίκτυα αντιπάλου και οι ελλείψεις τους

Μόλις πριν από λίγα χρόνια, μοντέλα τελευταίας τεχνολογίας σε αυτά

τα καθήκοντα θεωρήθηκαν γενεσιουργικά-αντίπαλανευρωνικά δίκτυα (generative adversarial networks ή GANs), τα οποία προτάθηκαν το 2014 από τους Goodfellow et al και έχουν βελτιωθεί σημαντικά τα τελευταία εννέα χρόνια. Για παράδειγμα, το μοντέλο StyleGAN 3 2021 διατηρεί με ακρίβεια τις λεπτομέρειες του προσώπου ακόμη και με αλλαγές και περιστροφές, ενώ οι προκάτοχοί του δημιουργούν «θορυβώδεις» λεπτομέρειες σε αυτήν την περίπτωση, όπως μαλλιά, γένια ή σχέδια ρούχων. Οι επαγγελματίες και οι λάτρεις έχουν θαυμάσει πόσο καλά τα GAN μπορούν να δημιουργήσουν φωτογραφίες ανύπαρκτων ανθρώπων, ζώων ή διαμερισμάτων.

Ωστόσο, λόγω της ανταγωνιστικής φύσηςΤα μοντέλα GAN είναι πολύ ασταθή στην εκπαίδευση και δεν εμφανίζουν πολύ μεγάλη ποικιλία τύπων εικόνας όταν δημιουργούνται. Επιπλέον, είναι ελάχιστα εφαρμόσιμες στο έργο της δημιουργίας εικόνων από κείμενο, αν και υπάρχουν τέτοια παραδείγματα.

Αποτελέσματα δημιουργίας εικόνων από το μοντέλο StyleGAN 3

Η έκρηξη στα μοντέλα διάχυσης

Τα μοντέλα διάχυσης, αντίθετα, έχουνεπαρκή μεταβλητότητα των δημιουργούμενων εικόνων και είναι αρκετά σταθερές. Το κύριο μειονέκτημά τους είναι η ταχύτητα μάθησης και παραγωγής. Απαιτούνται δεκάδες ή και εκατοντάδες κάρτες βίντεο για την εκπαίδευση ενός μοντέλου και η δημιουργία μιας εικόνας χρησιμοποιώντας ένα ήδη εκπαιδευμένο μοντέλο διαρκεί αρκετά δευτερόλεπτα, σε αντίθεση με το GAN, όπου η μέτρηση φτάνει σε δεκάδες χιλιοστά του δευτερολέπτου.

Η δημιουργία προκύπτει από το μοντέλο διάχυσης των Ho et al

Η έκρηξη γύρω από τα μοντέλα διάχυσης τροφοδοτείται από την έξοδομεγάλα μοντέλα δημιουργίας κειμένου σε εικόνα. Σίγουρα πολλοί αναγνώστες έχουν δει τα αποτελέσματα που δημιουργούνται από το DALL·E 2, το MidJourney, το Imagen ή το Stable Diffusion. Μερικοί καλλιτέχνες και εικονογράφοι ανησυχούν ότι τα νευρωνικά δίκτυα θα αφαιρέσουν τη δουλειά τους, ενώ άλλοι πιστεύουν ότι αυτό θα βοηθήσει μόνο στη δημιουργική διαδικασία. Οι προγραμματιστές και οι καλλιτέχνες κατακτούν την άμεση μηχανική - την τέχνη της επιλογής κειμένου για να έχετε πιο ακριβή αποτελέσματα παραγωγής - και μοιράζονται ενδιαφέροντα αιτήματα και όχι λιγότερο ενδιαφέροντα αποτελέσματα.

Εισβολή εξωγήινων Lofi για χαλάρωση και μελέτη στο (Νευρωνικό δίκτυο Midjourney) 

Πίνακας του 17ου αιώνα των Beatles (Model Stable Diffusion 2.1)

Ένα φρούτο δράκου φορώντας ζώνη καράτε στο χιόνι (μοντέλο Imagen)

Πώς λειτουργούν τα μοντέλα διάχυσης;

Τα μοντέλα διάχυσης είναι επαναληπτικά μοντέλα πουαποδεχτείτε τον τυχαίο θόρυβο ως είσοδο. Αρχικά, εξετάστε το πιο βασικό μοντέλο διάχυσης, το DDPM (Denoise Diffusion Probabilistic Model), που παρουσιάστηκε από τους Ho et al. Αυτό το μοντέλο εκπαιδεύεται βήμα προς βήμα σε ένα δείγμα εκατοντάδων χιλιάδων εικόνων, όπου τυχαίος θόρυβος κάποιας γνωστής ισχύος εφαρμόζεται στην εικόνα από το δείγμα σε κάθε βήμα, και το μοντέλο μαθαίνει να αντιστρέφει αυτόν τον θόρυβο, βελτιώνοντας έτσι την ποιότητα της εικόνας. Εάν εφαρμόσουμε επαναληπτικά το εκπαιδευμένο μοντέλο με αυτόν τον τρόπο σε μια εικόνα εντελώς τυχαίου θορύβου, αντιστρέφοντας τον "αδύναμο" θόρυβο σε κάθε βήμα, το μοντέλο μπορεί να δημιουργήσει μια εντελώς νέα εικόνα, απαλλαγώντας σταδιακά από τον τυχαίο θόρυβο - χρησιμοποιώντας την αντίστροφη διάχυση.

Απεικόνιση της βασικής διαδικασίας διάχυσης (από το σεμινάριο CVPR 2022) 

Τυχαίος θόρυβος από τον οποίο παράγεταιΗ εικόνα μπορεί να συνδυαστεί με μια συνθήκη - μια απαίτηση για ένα αποτέλεσμα, που εκφράζεται σε κείμενο ή άλλο παράδειγμα εικόνας. Αρχικά, ας δούμε ένα παράδειγμα από το άρθρο SDEdit, όπου ο χρήστης υποδεικνύει στο νευρωνικό δίκτυο ένα σχέδιο που αποτελείται από μεγάλες πινελιές. Αυτό το μοτίβο είναι ακόμη πιο θορυβώδες σε σημείο που δεν μπορεί να διακριθεί, για παράδειγμα, από μια θορυβώδη φωτογραφία και, στη συνέχεια, εφαρμόζεται μια επαναληπτική διαδικασία οπίσθιας διάχυσης, η οποία αναδομεί μια εικόνα υψηλής ποιότητας με βάση το παρεχόμενο μοτίβο. 

Μια απεικόνιση της διαδικασίας διάχυσης που βασίζεται σε μοτίβο (από το άρθρο SDEdit)

Ένας άλλος τρόπος για να κατευθύνετε τη γενιά στο επιθυμητόΤο αποτέλεσμα είναι η προσαρμογή του μοντέλου από το κείμενο. Για να γίνει αυτό, χρησιμοποιούνται γλωσσικά μοντέλα, εκπαιδευμένα σε ζεύγη εικόνων και λεζάντες σε αυτά, τα οποία είναι σε θέση να κατανοούν το νόημα των εικόνων και των κειμένων ταυτόχρονα. Ένα παράδειγμα τέτοιου μοντέλου είναι το CLIP (Contrastive Language - Image Pre-training) που κυκλοφόρησε από την OpenAI. Αυτό το μοντέλο είναι σε θέση να μεταφράζει εικόνες και κείμενα σε έναν κοινό λανθάνοντα διανυσματικό χώρο (όπου ένα διάνυσμα είναι απλώς μια στήλη ορισμένων τιμών). Σε αυτόν τον χώρο, για παράδειγμα, είναι δυνατό να βρείτε τις πλησιέστερες εικόνες σε κάποιο ερώτημα κειμένου, καθώς πρόκειται απλώς για μια αλγεβρική πράξη σε διανύσματα.

Μοντέλο λανθάνουσας διάχυσης,εισήγαγε στις συνθήκες του 2021 ένα μοντέλο σε έναν διανυσματικό χώρο κειμένων για τη δημιουργία εικόνων από κατευθυντικό θόρυβο. Αυτό το μοντέλο χρησιμοποιεί τις ιδιότητες του κοινού λανθάνοντος χώρου κειμένων και εικόνων. Το Stable Diffusion, το Imagen και άλλα μεγάλα νευρωνικά δίκτυα κειμένου σε εικόνα λειτουργούν με αυτήν την αρχή.

Μια άλλη σημαντική τεχνική που βελτιώνει την ποιότηταΗ γενιά που χρησιμοποιείται σε μοντέλα ρυθμισμένης διάχυσης εκπαίδευσης είναι η καθοδήγηση χωρίς ταξινομητή. Με απλά λόγια, όσο υψηλότερη είναι η τιμή της παραμέτρου καθοδήγησης χωρίς ταξινομητή, τόσο περισσότερο το αποτέλεσμα μοιάζει με ένα ερώτημα κειμένου, το οποίο συχνά μεταφράζεται σε λιγότερη μεταβλητότητα στα αποτελέσματα.

Προβλήματα μοντέλων διάχυσης

Φυσικά, τα μοντέλα διάχυσης δεν είναικαθολική λύση για το πρόβλημα της δημιουργίας εικόνων. Εξακολουθούν να αντιμετωπίζουν τα ίδια προβλήματα με τα GAN - με την πρώτη ματιά, οι πραγματικές εικόνες έχουν σημαντικά μειονεκτήματα - οι άνθρωποι που δημιουργούνται μπορεί να έχουν περισσότερα από πέντε δάχτυλα ή 32 δόντια. Επίσης, αυτά τα μοντέλα είναι αρκετά κακά στο να δημιουργούν κείμενο σε εικόνες και ακόμη και να επινοούν τη δική τους «γλώσσα».

Οι καλλιτέχνες κατηγορούν το Midjourney και το Stability AI(η εταιρεία πίσω από το Stable Diffusion) για παραβίαση πνευματικών δικαιωμάτων στην προετοιμασία δεδομένων εκπαίδευσης - ισχυρίζονται ότι οι εταιρείες κατέβασαν εικόνες από το Διαδίκτυο χωρίς τη συγκατάθεση των καλλιτεχνών ή την κατάλληλη αποζημίωση. Υπάρχει επίσης ένα αυξανόμενο ερώτημα ότι τα δίκτυα παραγωγής, συμπεριλαμβανομένου του Stable Diffusion, ενισχύουν τα αρνητικά στερεότυπα σχετικά με τη φυλή, το φύλο και άλλα κοινωνικά ζητήματα, επειδή εκπαιδεύονται σε μεροληπτικά δεδομένα που λαμβάνονται από το Διαδίκτυο. 

Η ιστορία του Αδάμ και της Εύας, του Νώε και του Δία στο στυλ της DC Comics (μοντέλο DALL·E 2) 

Πώς να δοκιμάσετε δωρεάν

Σε αντίθεση με πολλές προηγούμενες εξελίξεις στοτομείς της όρασης υπολογιστών που ήταν συχνά προσβάσιμοι μόνο στους προγραμματιστές, οι νέες τεχνολογίες στον τομέα των δικτύων διάχυσης μπορούν συχνά να δοκιμαστούν από όλους. Η γενική τάση προς το λογισμικό ανοιχτού κώδικα και τη δημοσίευση εκδόσεων επίδειξης νευρωνικών δικτύων επιτρέπει σε startups όπως το Hugging Face να συγκεντρώνουν πολλές εκδόσεις μοντέλων, για παράδειγμα, Stable Diffusion 2.1. Αναπτύσσουν επίσης τη βιβλιοθήκη διαχυτών, η οποία έχει σχεδιαστεί για να απλοποιεί τη χρήση μοντέλων στον κώδικα. 

Η υπηρεσία Google Colab σάς επιτρέπει να εκτελείτε κώδικαGPU και TPU, τόσοι πολλοί λάτρεις το χρησιμοποιούν για να δημοσιεύσουν τις εκδόσεις του μοντέλου τους, για παράδειγμα, το μοντέλο Disco Diffusion Warp, το οποίο μπορεί να αλλάξει το στυλ του βίντεο. 

Υπάρχουν επίσης βολικές διεπαφές για μοντέλα.Έτσι, το νευρωνικό δίκτυο MidJourney έχει μια δωρεάν δοκιμαστική έκδοση για αρκετές δεκάδες γενιές, η οποία αρκεί για να δοκιμάσετε μοντέλα κειμένου σε εικόνα. Το OpenAI παρέχει επίσης δοκιμαστική πρόσβαση στο μοντέλο DALL·E 2.

Τι θα ακολουθήσει

Μπορούμε με σιγουριά να πούμε ότι βιώνουμε μια χρυσή εποχήτην εποχή της δημιουργίας εικόνων νευρωνικών δικτύων. Η κοινότητα περιμένει με ανυπομονησία μελλοντικά προϊόντα από την Google, η οποία κυκλοφόρησε το μοντέλο ιδιωτικής διάχυσης Imagen και μεγάλο αριθμό άρθρων σχετικά με την επεξεργασία και τη δημιουργία εικόνων, συμπεριλαμβανομένης της χρήσης άλλων τεχνολογιών τεχνητής νοημοσύνης. 

Νέες startups αναδύονται στον τομέα της δημιουργίας καιεπεξεργασία εικόνας που ανταγωνίζεται με επιτυχία κολοσσούς όπως το OpenAI ή η Google. Νέα άρθρα σχετικά με μοντέλα διάχυσης δημοσιεύονται σχεδόν κάθε εβδομάδα και το εύρος τους σήμερα δεν περιορίζεται στις αναφερόμενες εργασίες 2D όρασης υπολογιστή - χρησιμοποιούνται σε εργασίες ιατρικής απεικόνισης, δημιουργία βίντεο και τρισδιάστατο κείμενο. 

Διαβάστε περισσότερα:

Αποκαλύπτεται το μυστήριο των κόκκινων λωρίδων στον δορυφόρο του Δία

Βρέθηκε «αδύνατος» πλανήτης. Αψηφά τη σύγχρονη επιστήμη

Μυστηριώδεις εξαγωνικές «κηρήθρες» σε αλμυρές ερήμους βρήκαν εξήγηση

Geek Tech Online

Όλα για την τεχνολογία και τα gadgets

Πώς η τεχνητή νοημοσύνη δημιουργεί εικόνες. Ο μηχανικός ML εξηγεί