Yapay zeka görüntüleri nasıl üretir? ML mühendisi açıklıyor

Üretici hasım ağlar ve eksiklikleri

Sadece birkaç yıl önce, bu modellerdeki en son teknoloji modeller

görevler üretken-düşmanca kabul edildiGoodfellow ve diğerleri tarafından 2014 yılında önerilen ve son dokuz yılda önemli ölçüde iyileştirilen sinir ağları (üretken rakip ağlar veya GAN'ler). Örneğin, 2021 StyleGAN 3 modeli, kaydırma ve döndürme işlemlerinde bile yüz ayrıntılarını doğru bir şekilde korurken, öncülleri bu durumda saç, sakal veya kıyafet desenleri gibi "gürültülü" ayrıntılar üretiyor. Profesyoneller ve meraklılar, GAN'ların var olmayan insanların, hayvanların veya apartmanların fotoğraflarını ne kadar iyi üretebildiğine hayret ettiler.

Ancak rekabetin doğası gereğiGAN modelleri eğitimde çok kararsızdır ve oluşturulduklarında çok çeşitli görüntü türleri göstermezler. Buna ek olarak, örnekleri mevcut olmasına rağmen, metinden görüntü oluşturma görevinde pek uygulanamazlar.

StyleGAN 3 Modeli ile Görüntü Oluşturma Sonuçları

Difüzyon modellerinde patlama

Öte yandan difüzyon modelleri,oluşturulan görüntülerin yeterli değişkenliği ve oldukça kararlıdır. Ana dezavantajları, öğrenme ve üretme hızıdır. Bir modeli eğitmek için düzinelerce hatta yüzlerce video kartı gerekir ve zaten eğitilmiş bir modeli kullanarak bir görüntü oluşturmak, sayının onlarca milisaniyeye çıktığı GAN'ın aksine birkaç saniye sürer.

Ho ve diğerlerinin difüzyon modelinden üretim sonuçları

Difüzyon modellerinin etrafındaki patlama, çıkış tarafından beslenirbüyük üretken metinden görüntüye modeller. Pek çok okuyucunun DALL·E 2, MidJourney, Imagen veya Stable Difüzyon tarafından oluşturulan sonuçları gördüğü kesindir. Bazı sanatçılar ve illüstratörler, sinir ağlarının çalışmalarını elinden alacağından endişe ederken, diğerleri bunun yalnızca yaratıcı sürece yardımcı olacağına inanıyor. Programcılar ve sanatçılar, daha doğru üretim sonuçları elde etmek için metin seçme sanatı olan hızlı mühendislikte ustalaşır ve ilginç istekleri ve daha az ilginç olmayan sonuçları paylaşır.

Rahatlamak ve ders çalışmak için Lofi uzaylı istilası (Yolculuk Ortası sinir ağı) 

The Beatles'ın 17. yüzyıl tablosu (Model Stable Difüzyon 2.1)

Karda karate kemeri takan bir ejder meyvesi (Imagen modeli)

Difüzyon modelleri nasıl çalışır?

Difüzyon modelleri yinelemeli modellerdir.giriş olarak rastgele gürültüyü kabul edin. Başlamak için, Ho ve diğerleri tarafından sunulan en temel difüzyon modeli olan DDPM'yi (Denoising Difüzyon Probabilistic Model) düşünün. Bu model, yüzbinlerce görüntüden oluşan bir örnek üzerinde adım adım eğitilir; burada, her adımda örnekten alınan görüntüye bilinen bazı güçlerde rastgele gürültü uygulanır ve model bu gürültüyü tersine çevirmeyi öğrenir, böylece görüntü kalitesi artar. Eğitilmiş modeli bu şekilde, her adımda "zayıf" gürültüyü ters çevirerek, tamamen rastgele gürültünün bir resmine yinelemeli olarak uygularsak, model, geri difüzyonu kullanarak kademeli olarak rastgele gürültüden kurtularak tamamen yeni bir görüntü oluşturabilir.

Temel yayılma sürecinin çizimi (CVPR 2022 eğitiminden) 

Üretilen rastgele gürültüresim bir koşulla (metinle veya başka bir örnek resimle ifade edilen bir sonuç gerekliliği) birleştirilebilir. İlk olarak, kullanıcının sinir ağına büyük konturlardan oluşan bir çizimi belirttiği SDEdit makalesinden bir örneğe bakalım. Bu çizim, örneğin gürültülü bir fotoğraftan ayırt edilemeyecek kadar gürültülüdür ve daha sonra, sağlanan çizime dayalı olarak yüksek kaliteli bir görüntüyü yeniden oluşturan yinelemeli bir geri yayılma işlemi uygulanır. 

Desen güdümlü difüzyon sürecinin bir örneği (SDEdit makalesinden)

Nesli istenilen yöne yönlendirmenin başka bir yolusonuç, modelin metin tarafından şartlandırılmasıdır. Bunu yapmak için, aynı anda resimlerin ve metinlerin anlamını anlayabilen resim çiftleri ve bunlara altyazılar üzerinde eğitilmiş dil modelleri kullanılır. Böyle bir modele örnek olarak OpenAI tarafından yayınlanan CLIP (Contrastive Language - Image Pre-training) verilebilir. Bu model, görüntüleri ve metinleri ortak bir gizli vektör uzayına çevirebilir (burada bir vektör, bazı değerlerin yalnızca bir sütunudur). Bu uzayda, örneğin, vektörler üzerinde sadece bir cebirsel işlem olduğundan, bir metin sorgusuna en yakın görüntüleri bulmak mümkün hale gelir.

Gizli Difüzyon Modeli,2021'de tanıtılan, yönlü gürültüden görüntüler oluşturmak için metinlerin bir vektör uzayı üzerinde bir model koşullandırıyor. Bu model, metinlerin ve görüntülerin ortak gizli alanının özelliklerini kullanır. Kararlı Difüzyon, Imagen ve diğer büyük metinden görüntüye sinir ağları bu prensipte çalışır.

Kaliteyi artıran bir diğer önemli teknikKoşullu difüzyon modellerinin eğitiminde kullanılan nesil, sınıflandırıcıdan bağımsız rehberliktir. Basit bir ifadeyle, sınıflandırıcı ücretsiz kılavuzluk parametresinin değeri ne kadar yüksek olursa, sonuç bir metin sorgusuna o kadar çok benzer, bu da genellikle sonuçlarda daha az değişkenlik anlamına gelir.

Difüzyon modellerinin sorunları

Tabii ki, difüzyon modelleri değilgörüntü oluşturma sorunu için evrensel çözüm. Hala GAN'larla aynı sorunlara maruz kalıyorlar - ilk bakışta gerçek görüntülerin önemli dezavantajları var - oluşturulan insanların beşten fazla parmağı veya 32 dişi olabilir. Ayrıca, bu modeller resimler üzerinde metin oluşturma konusunda oldukça kötüdür ve hatta kendi “dillerini” icat etmektedir.

Sanatçılar Yolculuğun Ortasını ve Stabilite Yapay Zekasını Suçluyor(Stable Diffusion'ın arkasındaki şirket) eğitim verilerinin hazırlanmasında telif hakkı ihlali nedeniyle - şirketlerin, sanatçıların izni veya uygun tazminat olmadan internetten görsel indirdiğini iddia ediyorlar. Ayrıca, Stabil Yayılma da dahil olmak üzere üretken ağların, internetten elde edilen önyargılı veriler üzerine eğitildikleri için ırk, cinsiyet ve diğer sosyal konular hakkındaki olumsuz stereotipleri güçlendirdiğine dair artan bir endişe var. 

Adem ile Havva, Nuh ve Zeus'un DC Comics tarzında hikayesi (model DALL·E 2) 

Ücretsiz olarak nasıl denenir?

Daha önceki pek çok gelişmeden farklı olarakGenellikle yalnızca programcıların erişebildiği bilgisayarlı görme alanlarında, dağıtım ağları alanındaki yeni teknolojiler çoğu zaman herkes tarafından denenebilir. Açık kaynaklı yazılımlara ve sinir ağlarının demo versiyonlarının yayınlanmasına yönelik genel eğilim, Hugging Face gibi startup şirketlerin, Stable Diffusion 2.1 gibi birçok model versiyonunu bir araya getirmesine olanak tanıyor. Ayrıca modellerin kodda kullanımını basitleştirmek için tasarlanan difüzör kitaplığını da geliştiriyorlar. 

Google Colab hizmeti, kodu çalıştırmanıza olanak tanırGPU ve TPU, pek çok meraklı bunu modelin kendi versiyonlarını yayınlamak için kullanıyor; örneğin, videonun stilini değiştirebilen Disco Diffusion Warp modeli. 

Modeller için uygun arayüzler de vardır.Bu nedenle, MidJourney sinir ağının birkaç düzine nesil için ücretsiz bir deneme sürümü vardır ve bu, metinden görüntüye modelleri denemek için yeterlidir. OpenAI ayrıca DALL·E 2 modeline deneme erişimi sağlıyor.

Sırada ne var

Altın bir çağ yaşadığımızı rahatlıkla söyleyebiliriz.sinir ağı görüntü oluşturma çağı. Topluluk, özel yayılma modeli Imagen'i ve diğer yapay zeka teknolojilerinin kullanımı da dahil olmak üzere görüntü düzenleme ve oluşturma üzerine çok sayıda makale yayınlayan Google'ın gelecekteki ürünlerini sabırsızlıkla bekliyor. 

Yaratıcılık alanında yeni girişimler ortaya çıkıyor veOpenAI veya Google gibi devlerle başarıyla rekabet eden resim düzenleme. Difüzyon modelleriyle ilgili yeni makaleler neredeyse haftada bir yayınlanıyor ve bunların kapsamı günümüzde listelenen 2D bilgisayarlı görme görevleriyle sınırlı değil; tıbbi görüntüleme görevlerinde, video oluşturmada ve 3D metinlerde kullanılıyorlar. 

Daha fazla oku:

Jüpiter'in uydusundaki kırmızı çizgilerin sırrı ortaya çıkıyor

"İmkansız" gezegen bulundu. Modern bilime meydan okuyor

Tuz çöllerindeki gizemli altıgen "petekler" bir açıklama buldu