Как изкуственият интелект генерира изображения. ML инженер обяснява

Генеративни състезателни мрежи и техните недостатъци

Само преди няколко години, най-съвременните модели в тези

задачите се считат за генеративно-състезателниневронни мрежи (generative adversarial networks или GAN), които бяха предложени през 2014 г. от Goodfellow et al и бяха значително подобрени през последните девет години. Например, моделът 2021 StyleGAN 3 прецизно запазва детайлите на лицето дори при смени и завъртания, докато неговите предшественици генерират „шумни“ детайли в този случай, като коса, брада или модели на дрехи. Професионалистите и ентусиастите се възхитиха колко добре GAN могат да генерират снимки на несъществуващи хора, животни или апартаменти.

Въпреки това, поради състезателния характерGAN моделите са много нестабилни при обучение и не показват много голямо разнообразие от типове изображения, когато се генерират. В допълнение, те са слабо приложими при задачата за генериране на изображения от текст, въпреки че съществуват примери за това.

Резултати от генерирането на изображение от модела StyleGAN 3

Бумът на дифузионните модели

Дифузионните модели, напротив, иматдостатъчна променливост на генерираните изображения и са доста стабилни. Основният им недостатък е скоростта на обучение и генериране. Необходими са десетки или дори стотици видеокарти, за да се обучи модел, а генерирането на изображение с помощта на вече обучен модел отнема няколко секунди, за разлика от GAN, където броят достига до десетки милисекунди.

Генерирането е резултат от дифузионния модел на Ho et al

Бумът около дифузионните модели се подхранва от изходаголеми генеративни модели текст към изображение. Със сигурност много читатели са виждали резултатите, генерирани от DALL·E 2, MidJourney, Imagen или Stable Diffusion. Някои художници и илюстратори се притесняват, че невронните мрежи ще отнемат работата им, докато други смятат, че това само ще помогне в творческия процес. Програмисти и художници владеят бързото инженерство - изкуството да се избира текст, за да се получат по-точни резултати от генерирането - и споделят интересни заявки и не по-малко интересни резултати.

Лофи извънземно нашествие, за да се отпуснете и да изучавате (невронна мрежа Midjourney) 

Картина на The Beatles от 17-ти век (Модел Stable Diffusion 2.1)

Драконов плод, носещ карате колан в снега (модел Imagen)

Как работят дифузионните модели?

Дифузионните модели са итеративни модели, коитоприемете случаен шум като вход. Като начало, разгледайте най-основния дифузионен модел, DDPM (Denoising Diffusion Probabilistic Model), представен от Ho et al. Този модел се обучава стъпка по стъпка върху извадка от стотици хиляди изображения, където произволен шум с известна известна сила се прилага към изображението от извадката на всяка стъпка и моделът се научава да обръща този шум, като по този начин подобрява качеството на изображението. Ако прилагаме итеративно обучения модел по този начин към картина на напълно случаен шум, като обръщаме "слабия" шум на всяка стъпка, моделът може да генерира напълно ново изображение, като постепенно се отървава от произволния шум - използвайки обратна дифузия.

Илюстрация на основния процес на разпространение (от урока за CVPR 2022) 

Случаен шум, от който се генерираизображение може да се комбинира с условие - изискване за резултат, изразено в текст или друго примерно изображение. Първо, нека да разгледаме пример от статията SDEdit, където потребителят посочва на невронната мрежа чертеж, състоящ се от големи щрихи. Този чертеж е допълнително зашумен до степен, в която не може да бъде разграничен от, например, шумна снимка, след което се прилага итеративен процес на обратна дифузия, който възстановява висококачествено изображение въз основа на предоставения чертеж. 

Илюстрация на процеса на дифузия, управляван от шаблони (от статията на SDEdit)

Друг начин да насочите поколението към желаноторезултатът е обуславянето на модела от текста. За целта се използват езикови модели, обучени върху двойки изображения и надписи към тях, които са в състояние да разберат значението на изображения и текстове едновременно. Пример за такъв модел е CLIP (Contrastive Language - Image Pre-training), издаден от OpenAI. Този модел е в състояние да превежда изображения и текстове в общо латентно векторно пространство (където векторът е просто колона от някои стойности). В това пространство става, например, възможно да се намерят най-близките изображения до някаква текстова заявка, тъй като това е просто алгебрична операция върху вектори.

Модел на латентна дифузия,въведен през 2021 г. обуславя модел върху векторно пространство от текстове за генериране на изображения от насочен шум. Този модел използва свойствата на общото латентно пространство на текстове и изображения. Stable Diffusion, Imagen и други големи невронни мрежи от текст към изображение работят на този принцип.

Друга важна техника, която подобрява качествотогенериране, използвано при обучението на условни дифузионни модели, е безплатно насочване на класификатора. С прости думи, колкото по-висока е стойността на параметъра за безплатно насочване на класификатора, толкова повече резултатът прилича на текстова заявка, което често води до по-малка променливост в резултатите.

Проблеми на дифузионните модели

Разбира се, дифузионните модели не сауниверсално решение на проблема с генерирането на изображения. Те все още са обект на същите проблеми като GAN - на пръв поглед реалните изображения имат значителни недостатъци - генерираните хора могат да имат повече от пет пръста или 32 зъба. Освен това тези модели са доста лоши в генерирането на текст върху изображения и дори измислят свой собствен „език“.

Художниците обвиняват Midjourney и Stability AI(компанията зад Stable Diffusion) за нарушаване на авторски права при подготовката на данни за обучение - те твърдят, че компаниите са изтеглили изображения от интернет без съгласието на артистите или подходящо обезщетение. Налице е също така нарастваща загриженост, че генеративните мрежи, включително Stable Diffusion, засилват негативните стереотипи относно раса, пол и други социални проблеми, тъй като се обучават на предубедени данни, получени от интернет. 

Историята на Адам и Ева, Ной и Зевс в стила на DC Comics (модел DALL·E 2) 

Как да пробвам безплатно

За разлика от много предишни разработки вобласти на компютърното зрение, които често са били достъпни само за програмисти, новите технологии в областта на дифузионните мрежи често могат да бъдат изпробвани от всеки. Общата тенденция към софтуер с отворен код и публикуване на демонстрационни версии на невронни мрежи позволява на стартиращи компании като Hugging Face да обединяват много версии на модели, например Stable Diffusion 2.1. Те също така разработват библиотеката за дифузори, която е предназначена да опрости използването на модели в код. 

Услугата Google Colab ви позволява да изпълнявате код наGPU и TPU, така че много ентусиасти го използват, за да публикуват своите версии на модела, например модела Disco Diffusion Warp, който е в състояние да промени стила на видеото. 

Има и удобни интерфейси към моделите.И така, невронната мрежа MidJourney има безплатна пробна версия за няколко десетки поколения, което е достатъчно, за да изпробвате модели от текст към изображение. OpenAI също така предоставя пробен достъп до модела DALL·E 2.

Какво следва

С увереност можем да кажем, че изживяваме златен векерата на генериране на изображения от невронни мрежи. Общността с нетърпение очаква бъдещи продукти от Google, който пусна частния дифузионен модел Imagen и голям брой статии за редактиране и генериране на изображения, включително използване на други технологии за изкуствен интелект. 

Появяват се нови стартиращи компании в областта на създаването иредактиране на изображения, което успешно се конкурира с гиганти като OpenAI или Google. Нови статии за дифузионни модели се публикуват почти всяка седмица и обхватът на тяхното приложение днес не се ограничава до изброените задачи на 2D компютърното зрение - те се използват в задачи за медицински изображения, генериране на видео и 3D текст. 

Прочетете още:

Мистерията на червените ивици на спътника на Юпитер е разкрита

Откриха "невъзможна" планета. Тя се противопоставя на съвременната наука

Мистериозни шестоъгълни "пчелни пити" в солени пустини намериха обяснение