ปัญญาประดิษฐ์สร้างภาพอย่างไร วิศวกร ML อธิบาย

เครือข่ายฝ่ายตรงข้ามที่สร้างสรรค์และข้อบกพร่อง

เพียงไม่กี่ปีที่ผ่านมาโมเดลที่ล้ําสมัยในสิ่งเหล่านี้

งานดังกล่าวเป็นเครือข่ายปฏิปักษ์เชิงกําเนิด (GANs) ซึ่งเสนอในปี 2014 โดย Goodfellow et al และได้รับการปรับปรุงอย่างมีนัยสําคัญในช่วงเก้าปีที่ผ่านมาตัวอย่างเช่น 2021 StyleGAN 3 ยังคงรักษารายละเอียดใบหน้าไว้ได้อย่างแม่นยําแม้ในขณะที่ขยับและหมุนในขณะที่รุ่นก่อนสร้างในกรณีนี้รายละเอียด "มีเสียงดัง" เช่นผมเคราหรือลวดลายบนเสื้อผ้าผู้เชี่ยวชาญและผู้ที่ชื่นชอบต่างประหลาดใจที่ GANs สามารถสร้างภาพถ่ายของคนสัตว์หรืออพาร์ตเมนต์ที่ไม่มีอยู่จริงได้ดีเพียงใด

อย่างไรก็ตามเนื่องจากลักษณะการแข่งขันแบบจำลอง GAN นั้นไม่เสถียรอย่างมากในการฝึกฝน และไม่แสดงประเภทภาพที่หลากหลายมากนักเมื่อสร้างขึ้น นอกจากนี้ยังใช้งานได้ไม่ดีในการสร้างรูปภาพจากข้อความแม้ว่าจะมีตัวอย่างอยู่ก็ตาม

ผลลัพธ์ของการสร้างรูปภาพโดย StyleGAN 3 Model

ความเจริญในแบบจำลองการแพร่กระจาย

ในทางกลับกันมีแบบจำลองการแพร่กระจายความแปรปรวนเพียงพอของภาพที่สร้างขึ้นและค่อนข้างเสถียร ข้อเสียเปรียบหลักของพวกเขาคือความเร็วในการเรียนรู้และการสร้าง ต้องใช้การ์ดวิดีโอหลายสิบหรือหลายร้อยตัวในการฝึกโมเดล และการสร้างภาพโดยใช้โมเดลที่ผ่านการฝึกอบรมมาแล้วจะใช้เวลาหลายวินาที ซึ่งแตกต่างจาก GAN ที่การนับจะใช้เวลาหลายสิบมิลลิวินาที

การสร้างผลลัพธ์จากแบบจำลองการแพร่กระจายของ Ho et al

ความเจริญรอบ ๆ แบบจำลองการแพร่กระจายถูกขับเคลื่อนโดยทางออกโมเดลข้อความเป็นรูปภาพขนาดใหญ่ แน่นอนว่าผู้อ่านหลายคนได้เห็นผลลัพธ์ที่สร้างโดย DALL·E 2, MidJourney, Imagen หรือ Stable Diffusion ศิลปินและนักวาดภาพประกอบบางคนกังวลว่าโครงข่ายประสาทเทียมจะทำให้งานของพวกเขาหายไป ในขณะที่บางคนเชื่อว่าสิ่งนี้จะช่วยในกระบวนการสร้างสรรค์เท่านั้น โปรแกรมเมอร์และศิลปินเชี่ยวชาญด้านวิศวกรรมพรอมต์ - ศิลปะในการเลือกข้อความเพื่อให้ได้ผลลัพธ์การสร้างที่แม่นยำยิ่งขึ้น - และแบ่งปันคำขอที่น่าสนใจและผลลัพธ์ที่น่าสนใจไม่แพ้กัน

การบุกรุกของมนุษย์ต่างดาว Lofi เพื่อผ่อนคลายและศึกษา (เครือข่ายประสาทเทียม Midjourney)

ภาพวาด The Beatles ในศตวรรษที่ 17 (Model Stable Diffusion 2.1)

แก้วมังกรสวมเข็มขัดคาราเต้ท่ามกลางหิมะ (รุ่น Imagen)

แบบจำลองการแพร่กระจายทำงานอย่างไร?

แบบจำลองการแพร่กระจายเป็นแบบจำลองซ้ำที่ยอมรับสัญญาณรบกวนแบบสุ่มเป็นอินพุต ในการเริ่มต้น ให้พิจารณาแบบจำลองการแพร่กระจายพื้นฐานที่สุด DDPM (Denoising Diffusion Probabilistic Model) ซึ่งนำเสนอโดย Ho et al โมเดลนี้ได้รับการฝึกฝนทีละขั้นตอนกับตัวอย่างภาพหลายแสนภาพ โดยสัญญาณรบกวนแบบสุ่มในระดับที่ทราบบางส่วนจะถูกนำมาใช้กับภาพจากตัวอย่างในแต่ละขั้นตอน และโมเดลจะเรียนรู้ที่จะย้อนกลับสัญญาณรบกวนนี้ ซึ่งจะเป็นการปรับปรุงคุณภาพของภาพ หากเราใช้โมเดลที่ผ่านการฝึกอบรมในลักษณะนี้ซ้ำๆ กับภาพของสัญญาณรบกวนแบบสุ่มอย่างสมบูรณ์ โดยสลับสัญญาณรบกวน "อ่อน" ในแต่ละขั้นตอน แบบจำลองสามารถสร้างภาพใหม่ที่สมบูรณ์ โดยค่อยๆ กำจัดสัญญาณรบกวนแบบสุ่ม โดยใช้การแพร่กระจายกลับ

ภาพประกอบของกระบวนการแพร่กระจายพื้นฐาน (จากบทช่วยสอน CVPR 2022)

สัญญาณรบกวนแบบสุ่มที่สร้างภาพสามารถรวมเข้ากับเงื่อนไขซึ่งเป็น ข้อกําหนดสําหรับผลลัพธ์ที่แสดงด้วยข้อความหรือภาพตัวอย่างอื่นก่อนอื่นเรามาดูตัวอย่างจากบทความ SDEdit ที่ผู้ใช้ระบุtrisun นี้มีเสียงดังมากขึ้นจนถึงจุดที่ไม่สามารถแยกแยะได้เช่นจากการถ่ายภาพที่มีเสียงดังจากนั้นจึงใช้กระบวนการกระจายย้อนกลับซ้ํา ๆ ซึ่งจะคืนค่าภาพคุณภาพสูงตามภาพที่ให้ไว้

ภาพประกอบของกระบวนการแพร่กระจายที่ขับเคลื่อนด้วยรูปแบบ (จากบทความ SDEdit)

อีกวิธีหนึ่งในการนำรุ่นสู่รุ่นที่ต้องการผลลัพธ์คือการปรับเงื่อนไขของโมเดลด้วยข้อความ ในการทำเช่นนี้ มีการใช้แบบจำลองภาษา ฝึกคู่ของภาพและคำบรรยาย ซึ่งสามารถเข้าใจความหมายของภาพและข้อความได้ในเวลาเดียวกัน ตัวอย่างโมเดลดังกล่าวคือ CLIP (Contrastive Language - Image Pre-training) ที่เผยแพร่โดย OpenAI โมเดลนี้สามารถแปลรูปภาพและข้อความเป็นพื้นที่เวกเตอร์แฝงทั่วไป (โดยที่เวกเตอร์เป็นเพียงคอลัมน์ของค่าบางค่า) ในพื้นที่นี้ เช่น เป็นไปได้ที่จะค้นหาภาพที่ใกล้เคียงที่สุดกับข้อความค้นหา เนื่องจากนี่เป็นเพียงการดำเนินการเกี่ยวกับพีชคณิตบนเวกเตอร์

โมเดลการแพร่กระจายแฝงเปิดตัวในปี 2021 เงื่อนไขแบบจำลองบนพื้นที่เวกเตอร์ของข้อความเพื่อสร้างภาพจากสัญญาณรบกวนในทิศทาง โมเดลนี้ใช้คุณสมบัติของพื้นที่แฝงทั่วไปของข้อความและรูปภาพ การแพร่กระจายที่เสถียร, อิมเมจและเครือข่ายประสาทแบบข้อความเป็นรูปภาพขนาดใหญ่อื่น ๆ ทำงานบนหลักการนี้

อีกหนึ่งเทคนิคสำคัญที่ช่วยเพิ่มคุณภาพรุ่นที่ใช้ในการฝึกอบรมแบบจำลองการแพร่กระจายแบบมีเงื่อนไขเป็นคำแนะนำฟรีสำหรับตัวแยกประเภท พูดง่ายๆ ก็คือ ยิ่งค่าของพารามิเตอร์คำแนะนำของ classifier free มีค่าสูงเท่าใด ผลลัพธ์ก็จะยิ่งคล้ายกับเคียวรีข้อความมากขึ้นเท่านั้น ซึ่งมักจะแปลได้ว่าผลลัพธ์มีความแปรปรวนน้อยลง

ปัญหาของแบบจำลองการแพร่กระจาย

แน่นอน แบบจำลองการแพร่กระจายไม่ใช่ทางออกสากลสำหรับปัญหาการสร้างภาพ พวกเขายังคงประสบปัญหาเช่นเดียวกับ GAN - เมื่อมองแวบแรก รูปภาพจริงมีข้อเสียอย่างมาก - คนที่สร้างขึ้นอาจมีมากกว่าห้านิ้วหรือฟัน 32 ซี่ นอกจากนี้ โมเดลเหล่านี้ค่อนข้างแย่ในการสร้างข้อความบนรูปภาพ และแม้แต่สร้าง "ภาษา" ของตัวเอง

ศิลปินกล่าวหา Midjourney and Stability AI (บริษัท ที่พัฒนา Stable Diffusion) ของการละเมิดลิขสิทธิ์ในการจัดทําข้อมูลสําหรับการฝึกอบรม - พวกเขาอ้างว่า บริษัท ดาวน์โหลดภาพจากอินเทอร์เน็ตโดยไม่ได้รับความยินยอมจากศิลปินและค่าตอบแทนที่เหมาะสมนอกจากนี้ยังมีการพูดคุยกันมากมายเกี่ยวกับวิธีที่เครือข่ายกําเนิดรวมถึง Stable Diffusion ทําให้รุนแรงขึ้นแบบแผนเชิงลบเกี่ยวกับเชื้อชาติเพศและปัญหาทางสังคมอื่น ๆ เนื่องจากพวกเขาได้รับการฝึกฝนเกี่ยวกับข้อมูลที่มีอคติที่ได้รับจากอินเทอร์เน็ต

เรื่องราวของ Adam and Eve, Noah และ Zeus ในรูปแบบของ DC Comics (โมเดล DALL· 2)

วิธีทดลองเล่นฟรี

ซึ่งแตกต่างจากการพัฒนาก่อนหน้านี้ในการมองเห็นด้วยคอมพิวเตอร์ซึ่งมักจะมีให้สําหรับโปรแกรมเมอร์เท่านั้นเทคโนโลยีใหม่ ๆ ในด้านเครือข่ายการแพร่กระจายสามารถทําได้บ่อยที่สุดแนวโน้มทั่วไปต่อซอฟต์แวร์โอเพ่นซอร์สและการเผยแพร่เวอร์ชันสาธิตของเครือข่ายประสาทเทียมช่วยให้คุณสตาร์ทอัพเช่น Hugging Face เพื่อรวมโมเดลหลายรุ่นเช่น Stable Diffusion 2.1พวกเขายังพัฒนาไลบรารี diffusers ซึ่งออกแบบมาเพื่อลดความซับซ้อนของการใช้แบบจําลองในโค้ด

บริการ Google Colab ช่วยให้คุณสามารถเรียกใช้รหัสบน GPU และ TPU ดังนั้นผู้ที่ชื่นชอบจํานวนมากจึงใช้เพื่อเผยแพร่โมเดลเวอร์ชันของตนเองเช่นโมเดล Disco Diffusion Warp ซึ่งสามารถเปลี่ยนรูปแบบของวิดีโอได้

นอกจากนี้ยังมีอินเทอร์เฟซที่สะดวกสำหรับโมเดลดังนั้น โครงข่ายประสาทเทียม MidJourney จึงมีเวอร์ชันทดลองใช้ฟรีสำหรับรุ่นต่างๆ หลายโหล ซึ่งเพียงพอสำหรับการลองใช้โมเดลข้อความเป็นรูปภาพ OpenAI ยังให้สิทธิ์ทดลองใช้โมเดล DALL·E 2

ถัดไปคืออะไร

เราสามารถพูดได้อย่างมั่นใจว่าเรากําลังมีชีวิตอยู่ผ่านยุคทองของการสร้างภาพเครือข่ายประสาทเทียมชุมชนกําลังรอคอยผลิตภัณฑ์ในอนาคตของ Google ซึ่งได้เปิดตัว Imagen โมเดลการแพร่กระจายที่ไม่ใช่สาธารณะและบทความจํานวนมากในหัวข้อการแก้ไขและการสร้างภาพรวมถึงการใช้เทคโนโลยีปัญญาประดิษฐ์อื่น ๆ

สตาร์ทอัพใหม่ในด้านการสร้างและแก้ไขภาพกําลังเกิดขึ้นซึ่งประสบความสําเร็จในการแข่งขันกับยักษ์ใหญ่เช่น OpenAI หรือ Google บทความใหม่เกี่ยวกับโมเดลการแพร่กระจายกําลังจะออกมาเกือบทุกสัปดาห์และขอบเขตของแอปพลิเคชันของพวกเขาในวันนี้ไม่ได้ จํากัด เฉพาะงานคอมพิวเตอร์วิทัศน์ 2 มิติที่ระบุไว้ซึ่งใช้ในการถ่ายภาพทางการแพทย์การสร้างวิดีโอและงาน ที่ใช้ข้อความ 3 มิติ

อ่านเพิ่มเติม:

ความลึกลับของแถบสีแดงบนดาวเทียมของดาวพฤหัสบดีถูกเปิดเผย

พบดาวเคราะห์ที่ "เป็นไปไม่ได้" เธอท้าทายวิทยาศาสตร์สมัยใหม่

"รังผึ้ง" หกเหลี่ยมลึกลับในทะเลทรายเกลือพบคำอธิบายแล้ว

กี๊กเทคออนไลน์

ทุกอย่างเกี่ยวกับเทคโนโลยีและอุปกรณ์