كيف يولد الذكاء الاصطناعي الصور. يشرح مهندس ML

شبكات الخصومة التوليدية وعيوبها

قبل بضع سنوات فقط، كانت النماذج الحديثة في هذه

تم اعتبار المهام عدائية توليديةالشبكات العصبية (شبكات الخصومة التوليدية أو GANs)، والتي تم اقتراحها في عام 2014 من قبل Goodfellow et al وتم تحسينها بشكل ملحوظ على مدى السنوات التسع الماضية. على سبيل المثال، يحافظ طراز 2021 StyleGAN 3 على تفاصيل الوجه بدقة حتى مع التحولات والتدوير، بينما تولد أسلافه تفاصيل “صاخبة” في هذه الحالة، مثل الشعر أو اللحى أو أنماط الملابس. لقد تعجب المحترفون والمتحمسون من مدى قدرة شبكات GAN على إنشاء صور لأشخاص أو حيوانات أو شقق غير موجودة.

ومع ذلك ، بسبب الطبيعة التنافسيةنماذج GAN غير مستقرة للغاية في التدريب ، ولا تظهر مجموعة كبيرة ومتنوعة من أنواع الصور عند إنشائها. بالإضافة إلى ذلك ، فهي غير قابلة للتطبيق بشكل جيد في مهمة إنشاء الصور من النص ، على الرغم من وجود أمثلة على ذلك.

نتائج إنشاء الصور بواسطة StyleGAN 3 Model

الازدهار في نماذج الانتشار

نماذج الانتشار ، على العكس من ذلك ، لديهاالتباين الكافي للصور التي تم إنشاؤها وتكون مستقرة تمامًا. عيبهم الرئيسي هو سرعة التعلم والتوليد. هناك حاجة إلى العشرات أو حتى المئات من بطاقات الفيديو لتدريب نموذج ، ويستغرق إنشاء صورة باستخدام نموذج مُدرب بالفعل عدة ثوانٍ ، على عكس GAN ، حيث يصل العدد إلى عشرات المللي ثانية.

ينتج الجيل من نموذج الانتشار لـ Ho et al

يتم تغذية ذراع الرافعة حول نماذج الانتشار بواسطة المخرجالنماذج التوليدية الكبيرة للنص إلى الصورة. من المؤكد أن العديد من القراء قد شاهدوا النتائج الناتجة عن DALL · E 2 أو MidJourney أو Imagen أو Stable Diffusion. يشعر بعض الفنانين والرسامين بالقلق من أن الشبكات العصبية ستسحب عملهم ، بينما يعتقد آخرون أن هذا لن يساعد إلا في العملية الإبداعية. يتقن المبرمجون والفنانون الهندسة السريعة - فن اختيار النص للحصول على نتائج إنشاء أكثر دقة - ومشاركة الطلبات المثيرة للاهتمام ونتائج لا تقل إثارة للاهتمام.

غزو ​​لوفي الفضائي للاسترخاء والدراسة لـ (شبكة Midjourney العصبية) 

لوحة البيتلز من القرن السابع عشر (نموذج الانتشار المستقر 2.1)

فاكهة التنين ترتدي حزام الكاراتيه في الثلج (نموذج Imagen)

كيف تعمل نماذج الانتشار؟

نماذج الانتشار هي نماذج تكراريةقبول الضوضاء العشوائية كمدخلات. للبدء ، ضع في اعتبارك نموذج الانتشار الأساسي ، DDPM (النموذج الاحتمالي لانتشار تقليل الضوضاء) ، الذي قدمه Ho et al. يتم تدريب هذا النموذج خطوة بخطوة على عينة من مئات الآلاف من الصور ، حيث يتم تطبيق ضوضاء عشوائية لبعض القوة المعروفة على الصورة من العينة في كل خطوة ، ويتعلم النموذج عكس هذه الضوضاء ، وبالتالي تحسين جودة الصورة. إذا طبقنا النموذج المدرَّب بشكل متكرر بهذه الطريقة على صورة ضوضاء عشوائية تمامًا ، وعكس الضوضاء "الضعيفة" في كل خطوة ، يمكن للنموذج إنشاء صورة جديدة تمامًا ، والتخلص تدريجيًا من الضوضاء العشوائية - باستخدام الانتشار الخلفي.

رسم توضيحي لعملية الانتشار الأساسية (من البرنامج التعليمي CVPR 2022) 

الضوضاء العشوائية التي تتولد منهايمكن دمج الصورة مع شرط - شرط للحصول على نتيجة، معبرًا عنه في نص أو صورة نموذجية أخرى. أولاً، دعونا نلقي نظرة على مثال من مقالة SDEdit، حيث يشير المستخدم إلى الشبكة العصبية برسم يتكون من حدود كبيرة. يكون هذا الرسم صاخبًا أيضًا لدرجة أنه لا يمكن تمييزه، على سبيل المثال، عن صورة فوتوغرافية مزعجة، ومن ثم يتم تطبيق عملية الانتشار الخلفي التكراري، والتي تعيد بناء صورة عالية الجودة بناءً على الرسم المقدم. 

توضيح لعملية الانتشار التي تعتمد على النمط (من مقالة SDEdit)

طريقة أخرى لتوجيه الجيل إلى المطلوبوالنتيجة هي تكييف النموذج بالنص. للقيام بذلك ، يتم استخدام نماذج لغوية ، يتم تدريبها على أزواج من الصور والتعليقات التوضيحية لها ، والتي تكون قادرة على فهم معنى الصور والنصوص في نفس الوقت. مثال على هذا النموذج هو CLIP (اللغة المتباينة - التدريب المسبق على الصورة) الذي أصدرته OpenAI. هذا النموذج قادر على ترجمة الصور والنصوص إلى فضاء متجه كامن مشترك (حيث يكون المتجه مجرد عمود لبعض القيم). في هذا الفضاء يصبح من الممكن ، على سبيل المثال ، العثور على أقرب الصور لبعض الاستعلام النصي ، لأن هذه مجرد عملية جبرية على المتجهات.

نموذج الانتشار الكامن ،قدم في عام 2021 نموذجًا على فضاء متجه للنصوص لتوليد صور من ضوضاء الاتجاه. يستخدم هذا النموذج خصائص الفضاء الكامن المشترك للنصوص والصور. يعمل الانتشار المستقر و Imagen والشبكات العصبية الكبيرة الأخرى لتحويل النص إلى صورة على هذا المبدأ.

تقنية مهمة أخرى تعمل على تحسين الجودةالجيل المستخدم في تدريب نماذج الانتشار المكيف هو التوجيه المجاني للمصنف. بعبارات بسيطة ، كلما زادت قيمة معلمة التوجيه المجاني للمصنف ، زادت تشابه النتيجة مع استعلام نصي ، والذي غالبًا ما يُترجم إلى تباين أقل في النتائج.

مشاكل نماذج الانتشار

بالطبع ، نماذج الانتشار ليست كذلكحل شامل لمشكلة توليد الصور. لا يزالون يتعرضون لنفس المشاكل مثل شبكات GAN - للوهلة الأولى ، الصور الحقيقية لها عيوب كبيرة - يمكن أن يكون لدى الأشخاص المولدين أكثر من خمسة أصابع أو 32 سنًا. أيضًا ، هذه النماذج سيئة جدًا في إنشاء نص على الصور وحتى ابتكار "لغتها" الخاصة.

الفنانون يلومون رحلة منتصف العمر والاستقرار على الذكاء الاصطناعي(الشركة التي تقف وراء Stable Diffusion) بتهمة انتهاك حقوق الطبع والنشر في إعداد بيانات التدريب - يزعمون أن الشركات قامت بتنزيل الصور من الإنترنت دون موافقة الفنانين أو التعويض المناسب. وهناك أيضاً مخاوف متزايدة من أن الشبكات التوليدية، بما في ذلك الانتشار المستقر، تعمل على تعزيز الصور النمطية السلبية حول العرق والجنس وغير ذلك من القضايا الاجتماعية لأنها مدربة على البيانات المتحيزة التي يتم الحصول عليها من الإنترنت.

قصة آدم وحواء ونوح وزيوس بأسلوب دي سي كوميكس (موديل DALL·E 2) 

كيف تجرب مجانا

على عكس العديد من التطورات السابقة فيفي مجالات الرؤية الحاسوبية التي كانت في كثير من الأحيان متاحة للمبرمجين فقط، غالبًا ما يمكن للجميع تجربة التقنيات الجديدة في مجال شبكات الانتشار. الاتجاه العام نحو البرمجيات مفتوحة المصدر ونشر الإصدارات التجريبية من الشبكات العصبية يسمح للشركات الناشئة مثل Hugging Face بتجميع العديد من إصدارات النماذج، على سبيل المثال، Stable Diffusion 2.1. كما يقومون أيضًا بتطوير مكتبة الناشرين، والتي تم تصميمها لتبسيط استخدام النماذج في التعليمات البرمجية.

تتيح لك خدمة Google Colab تشغيل التعليمات البرمجيةGPU وTPU، يستخدمه العديد من المتحمسين لنشر إصداراتهم من النموذج، على سبيل المثال، نموذج Disco Diffusion Warp، القادر على تغيير نمط الفيديو. 

هناك أيضًا واجهات ملائمة للنماذج.لذلك ، تمتلك شبكة MidJourney العصبية إصدارًا تجريبيًا مجانيًا لعدة عشرات من الأجيال ، وهو ما يكفي لتجربة نماذج تحويل النص إلى صورة. يوفر OpenAI أيضًا وصولاً تجريبيًا إلى نموذج DALL · E 2.

ما التالي

ويمكننا أن نقول بثقة أننا نشهد عصرا ذهبياعصر توليد صور الشبكة العصبية. وينتظر المجتمع بفارغ الصبر المنتجات المستقبلية من Google، التي أصدرت نموذج الانتشار الخاص Imagen وعددًا كبيرًا من المقالات حول تحرير الصور وإنشائها، بما في ذلك استخدام تقنيات الذكاء الاصطناعي الأخرى.

تظهر شركات ناشئة جديدة في مجال إنشاء وتحرير الصور الذي يتنافس بنجاح مع عمالقة مثل OpenAI أو Google. يتم نشر مقالات جديدة حول نماذج الانتشار أسبوعيًا تقريبًا، ولا يقتصر نطاق تطبيقها اليوم على المهام المدرجة للرؤية الحاسوبية ثنائية الأبعاد - فهي تُستخدم في مهام التصوير الطبي وتوليد الفيديو والنص ثلاثي الأبعاد.

قراءة المزيد:

كشف سر الخطوط الحمراء على القمر الصناعي لكوكب المشتري

العثور على كوكب "مستحيل". إنها تتحدى العلم الحديث

وجدت "أقراص العسل" الغامضة سداسية الشكل في الصحاري الملحية تفسيرا لذلك