כיצד בינה מלאכותית מייצרת תמונות. מהנדס ML מסביר

רשתות יריבות יצירתיות וחסרונותיהן

רק לפני כמה שנים, דגמים חדישים באלה

משימות נחשבו ליצירתיות-יריבותרשתות עצביות (רשתות יריבות גנרטיביות או GANs), שהוצעו בשנת 2014 על ידי Goodfellow וחב' ושופרו באופן משמעותי במהלך תשע השנים האחרונות. לדוגמה, דגם 2021 StyleGAN 3 שומר במדויק על פרטי פנים גם עם תזוזות וסיבובים, בעוד שקודמיו מייצרים פרטים "רועשים" במקרה זה, כגון שיער, זקן או דפוסי לבוש. אנשי מקצוע וחובבי התפעלו עד כמה GANs יכולים ליצור תמונות של אנשים, בעלי חיים או דירות לא קיימים.

עם זאת, בשל האופי התחרותידגמי GAN הם מאוד לא יציבים באימון, והם אינם מציגים מגוון גדול מאוד של סוגי תמונות כאשר הם נוצרים. בנוסף, הם מיושמים בצורה גרועה במשימה של יצירת תמונות מטקסט, אם כי קיימות דוגמאות לכך.

תוצאות יצירת תמונה על ידי StyleGAN 3 Model

הפריחה במודלים של דיפוזיה

למודלים של דיפוזיה, להיפך, יששונות מספקת של התמונות שנוצרו והן די יציבות. החיסרון העיקרי שלהם הוא מהירות הלמידה וההפקה. יש צורך בעשרות או אפילו מאות כרטיסי מסך כדי לאמן מודל, ויצירת תמונה באמצעות מודל שכבר מיומן נמשכת מספר שניות, בניגוד ל-GAN, שם הספירה מגיעה לעשרות אלפיות שניות.

תוצאות הדור ממודל הדיפוזיה של Ho et al

הבום סביב דגמי דיפוזיה ניזון מהיציאהמודלים גדולים של טקסט לתמונה. ודאי קוראים רבים ראו את התוצאות שנוצרו על ידי DALL·E 2, MidJourney, Imagen או Stable Diffusion. יש אמנים ומאיירים שחוששים שרשתות נוירונים יקחו להם את העבודה, בעוד שאחרים מאמינים שזה רק יעזור בתהליך היצירתי. מתכנתים ואמנים שולטים בהנדסה מהירה - אומנות בחירת הטקסט כדי לקבל תוצאות יצירה מדויקות יותר - ומשתפים בקשות מעניינות ותוצאות מעניינות לא פחות.

פלישת חייזרים לופי להירגע וללמוד (רשת נוירונים של Midjourney) 

ציור מהמאה ה-17 של הביטלס (דגם Stable Diffusion 2.1)

פרי דרקון חובש חגורת קראטה בשלג (דגם אימגן)

כיצד פועלים מודלים של דיפוזיה?

מודלים של דיפוזיה הם מודלים איטרטיבייםקבל רעש אקראי כקלט. כדי להתחיל, שקול את מודל הדיפוזיה הבסיסי ביותר, DDPM (Denoising Diffusion Probabilistic Model), שהוצג על ידי Ho et al. מודל זה מאומן שלב אחר שלב על דגימה של מאות אלפי תמונות, כאשר רעש אקראי בעוצמה ידועה מופעל על התמונה מהדגימה בכל שלב, והדגם לומד להפוך את הרעש הזה, ובכך לשפר את איכות התמונה. אם ניישם באופן איטרטיבי את המודל המאומן בדרך זו לתמונה של רעש אקראי לחלוטין, תוך הפוך רעש "חלש" בכל שלב, המודל יכול ליצור תמונה חדשה לחלוטין, בהדרגה להיפטר מרעש אקראי - באמצעות דיפוזיה אחורית.

איור של תהליך ההפצה הבסיסי (מתוך המדריך של CVPR 2022) 

רעש אקראי שממנו נוצרניתן לשלב תמונה עם תנאי - דרישה לתוצאה, המתבטאת בטקסט או תמונה אחרת לדוגמה. ראשית, בואו נסתכל על דוגמה מהמאמר של SDEdit, שבו המשתמש מציין לרשת העצבית ציור המורכב משיכות גדולות. ציור זה רועש עוד יותר עד לנקודה שבה לא ניתן להבחין בינו לבין, למשל, צילום רועש, ולאחר מכן מופעל תהליך דיפוזיה חוזרת איטרטיבית, המשחזרת תמונה באיכות גבוהה על סמך הציור שסופק. 

המחשה של תהליך הדיפוזיה מונע הדפוסים (מתוך מאמר SDEdit)

דרך נוספת לכוון את הדור לרצויהתוצאה היא התניה של המודל על ידי הטקסט. לשם כך משתמשים במודלים של שפה, מאומנים על צמדי תמונות וכיתובים להם, המסוגלים להבין את המשמעות של תמונות וטקסטים בו זמנית. דוגמה למודל כזה היא CLIP (Contrastive Language - Image Pre-training) שיצא על ידי OpenAI. מודל זה מסוגל לתרגם תמונות וטקסטים למרחב וקטור סמוי משותף (כאשר וקטור הוא רק עמודה של כמה ערכים). במרחב הזה אפשר, למשל, למצוא את התמונות הקרובות ביותר לשאילתת טקסט כלשהי, מכיוון שזוהי רק פעולה אלגברית על וקטורים.

מודל דיפוזיה סמויה,הציג בתנאים של 2021 מודל על מרחב וקטור של טקסטים ליצירת תמונות מרעש כיווני. מודל זה משתמש במאפיינים של המרחב הסמוי המשותף של טקסטים ודימויים. דיפוזיה יציבה, Imagen ורשתות עצביות גדולות אחרות של טקסט לתמונה פועלות על עיקרון זה.

עוד טכניקה חשובה שמשפרת את האיכותהדור המשמש באימון מודלים של דיפוזיה מותנים הוא ההדרכה החופשית של המסווג. במילים פשוטות, ככל שהערך של פרמטר הסיווג free guidance גבוה יותר, כך התוצאה דומה יותר לשאילתת טקסט, מה שלעתים קרובות מתורגם לפחות שונות בתוצאות.

בעיות של מודלים דיפוזיה

כמובן, מודלים דיפוזיה לאפתרון אוניברסלי לבעיית יצירת תמונות. הם עדיין נתונים לאותן בעיות כמו GANs - במבט ראשון, לתמונות אמיתיות יש חסרונות משמעותיים - לאנשים שנוצרו יכולים להיות יותר מחמש אצבעות או 32 שיניים. כמו כן, הדגמים הללו גרועים למדי ביצירת טקסט על תמונות ואפילו ממציאים "שפה" משלהם.

אמנים מאשימים את Midjourney ו-Stability AI(החברה העומדת מאחורי Stable Diffusion) בגין הפרת זכויות יוצרים בהכנת נתוני הדרכה - לטענתם החברות הורידו תמונות מהאינטרנט ללא הסכמת האמנים או פיצוי ראוי. קיים גם חשש גובר שרשתות גנרטיביות, כולל דיפוזיה יציבה, מחזקות סטריאוטיפים שליליים לגבי גזע, מגדר ונושאים חברתיים אחרים, משום שהן מאומנות על נתונים מוטים המתקבלים מהאינטרנט. 

סיפורם של אדם וחוה, נח וזאוס בסגנון DC Comics (דגם DALL·E 2) 

איך לנסות בחינם

בניגוד להתפתחויות קודמות רבות בתחוםתחומי ראייה ממוחשבת שלעתים קרובות היו נגישים רק למתכנתים, טכנולוגיות חדשות בתחום רשתות הדיפוזיה יכולות לרוב להתנסות על ידי כולם. המגמה הכללית של תוכנת קוד פתוח ופרסום גרסאות הדגמה של רשתות עצביות מאפשרת לסטארט-אפים כמו Hugging Face לצבור גרסאות רבות של מודלים, למשל, Stable Diffusion 2.1. הם גם מפתחים את ספריית המפיצים, שנועדה לפשט את השימוש במודלים בקוד. 

שירות Google Colab מאפשר לך להריץ קוד עלGPU ו-TPU, כל כך הרבה חובבים משתמשים בו כדי לפרסם את הגרסאות שלהם לדגם, למשל, דגם Disco Diffusion Warp, שמסוגל לשנות את סגנון הסרטון. 

יש גם ממשקים נוחים לדגמים.אז, לרשת העצבית MidJourney יש גרסת ניסיון בחינם לכמה עשרות דורות, וזה מספיק כדי לנסות מודלים של טקסט לתמונה. OpenAI מספקת גם גישת ניסיון לדגם DALL·E 2.

מה הלאה

אנו יכולים לומר בביטחון שאנו חווים תור זהבעידן יצירת תמונות רשתות עצביות. הקהילה מחכה בקוצר רוח למוצרים עתידיים מבית גוגל, שהוציאה את מודל הדיפוזיה הפרטית Imagen ומספר רב של מאמרים על עריכת תמונות ויצירת תמונות, כולל שימוש בטכנולוגיות אחרות של בינה מלאכותית. 

סטארטאפים חדשים צצים בתחום יצירת ועריכת תמונות שמתחרה בהצלחה עם ענקיות כמו OpenAI או גוגל. מאמרים חדשים על מודלים של דיפוזיה מתפרסמים כמעט מדי שבוע, והיקף היישום שלהם כיום אינו מוגבל למשימות המפורטות של ראייה ממוחשבת 2D - הם משמשים במשימות הדמיה רפואית, הפקת וידאו וטקסט 3D. 

קרא עוד:

מסתורין הפסים האדומים על הלוויין של צדק מתגלה

נמצא כוכב לכת "בלתי אפשרי". היא מתריסה מול המדע המודרני

"חלות דבש" משושה מסתוריות במדבריות מלח מצאו הסבר