AI ของ Microsoft เลียนแบบเสียงตามการบันทึกสามวินาที

Microsoft เปิดตัวปัญญาประดิษฐ์ VALL-E มันสามารถสร้างการบันทึกเสียงตาม

ตัวอย่างสามวินาที การศึกษาพบว่าแบบจำลองที่ได้รับการฝึกจากข้อความที่ตัดตอนสั้น ๆ หลายชิ้นทำให้เกิดคำพูดภาษาอังกฤษที่แยกไม่ออกจากเสียงต้นฉบับ

นักวิจัยแห่งมหาวิทยาลัยคอร์เนลใช้แบบจำลอง VALL-E เพื่อวิเคราะห์กลไกการสร้างเสียงพูด ในการทำงานของพวกเขา การพิมพ์ล่วงหน้าซึ่งเผยแพร่บนเซิร์ฟเวอร์ arXiv นักวิทยาศาสตร์ตรวจสอบโครงข่ายประสาทเทียมที่ได้รับการฝึกฝนบนพื้นฐานของคำพูดภาษาอังกฤษ 60,000 ชั่วโมง ซึ่งมากกว่าแอนะล็อกที่มีอยู่หลายร้อยเท่า

AI ทำงานอย่างไร ภาพ: VALL-E

จากการวิเคราะห์พบว่าระบบมีเพียงพอคลิปสามวินาทีเพื่อเลียนเสียงของคู่สนทนา ในขณะเดียวกัน Vall-E เหนือกว่าระบบ TTS ในปัจจุบันอย่างมากในแง่ของเสียงพูดที่เป็นธรรมชาติและความคล้ายคลึงของเสียง นอกจากนี้ยังสามารถรักษาอารมณ์ของผู้พูดและสภาพแวดล้อมทางอะคูสติก (อิทธิพลของคุณสมบัติทางอะคูสติกของห้องที่มีการบันทึกต้นฉบับ)

ระบบรุ่นที่พัฒนาแล้วยังคงปิดอยู่การเข้าถึงสาธารณะ แต่นักวิจัยได้เผยแพร่ตัวอย่างตัวอย่างและไฟล์เสียงสำเร็จรูปบนเว็บไซต์บนอินเทอร์เน็ต ตัวอย่างคำพูดที่สร้างขึ้นมีคุณภาพแตกต่างกันไป ในขณะที่บางเสียงเป็นธรรมชาติ บางเสียงก็สร้างโดยเครื่องจักร ผู้เขียนของการพัฒนาทราบว่าการฝึกอบรมต่อไปในเสียงที่แตกต่างกันรวมถึงสำเนียงที่แตกต่างกันจะช่วยปรับปรุงคุณภาพของระบบ

ตัวอย่างเสียงมนุษย์ เสียง: VALL-E

สร้างการบันทึกที่รักษาเสียงรบกวนจากภายนอก เสียง: VALL-E

นักวิจัยยังตั้งข้อสังเกตว่าความเป็นไปได้การสร้างเสียงที่เหมือนกับเสียงต้นฉบับสร้างความท้าทายด้านความปลอดภัยใหม่ๆ เนื่องจากอาจถูกโจมตีโดยมิจฉาชีพได้ พวกเขาเชื่อว่าก่อนที่โมเดลจะเผยแพร่สู่สาธารณะในวงกว้าง จำเป็นต้องมีการพัฒนาระบบที่จะจดจำบันทึกที่สร้างโดย AI

อ่านเพิ่มเติม:

ความลับของความทนทานของคอนกรีตโรมันถูกเปิดเผย: สามารถซ่อมแซมได้

นักพันธุศาสตร์ระบุว่าอายุของปฏิสนธิในมนุษย์เปลี่ยนแปลงไปอย่างไรในช่วง 250,000 ปี

พระอาทิตย์เปิดปีแสงวาบแรงสุดขั้ว