Microsoft เปิดตัวปัญญาประดิษฐ์ VALL-E มันสามารถสร้างการบันทึกเสียงตาม
นักวิจัยแห่งมหาวิทยาลัยคอร์เนลใช้แบบจำลอง VALL-E เพื่อวิเคราะห์กลไกการสร้างเสียงพูด ในการทำงานของพวกเขา การพิมพ์ล่วงหน้าซึ่งเผยแพร่บนเซิร์ฟเวอร์ arXiv นักวิทยาศาสตร์ตรวจสอบโครงข่ายประสาทเทียมที่ได้รับการฝึกฝนบนพื้นฐานของคำพูดภาษาอังกฤษ 60,000 ชั่วโมง ซึ่งมากกว่าแอนะล็อกที่มีอยู่หลายร้อยเท่า
AI ทำงานอย่างไร ภาพ: VALL-E
จากการวิเคราะห์พบว่าระบบมีเพียงพอคลิปสามวินาทีเพื่อเลียนเสียงของคู่สนทนา ในขณะเดียวกัน Vall-E เหนือกว่าระบบ TTS ในปัจจุบันอย่างมากในแง่ของเสียงพูดที่เป็นธรรมชาติและความคล้ายคลึงของเสียง นอกจากนี้ยังสามารถรักษาอารมณ์ของผู้พูดและสภาพแวดล้อมทางอะคูสติก (อิทธิพลของคุณสมบัติทางอะคูสติกของห้องที่มีการบันทึกต้นฉบับ)
ระบบรุ่นที่พัฒนาแล้วยังคงปิดอยู่การเข้าถึงสาธารณะ แต่นักวิจัยได้เผยแพร่ตัวอย่างตัวอย่างและไฟล์เสียงสำเร็จรูปบนเว็บไซต์บนอินเทอร์เน็ต ตัวอย่างคำพูดที่สร้างขึ้นมีคุณภาพแตกต่างกันไป ในขณะที่บางเสียงเป็นธรรมชาติ บางเสียงก็สร้างโดยเครื่องจักร ผู้เขียนของการพัฒนาทราบว่าการฝึกอบรมต่อไปในเสียงที่แตกต่างกันรวมถึงสำเนียงที่แตกต่างกันจะช่วยปรับปรุงคุณภาพของระบบ
ตัวอย่างเสียงมนุษย์ เสียง: VALL-E
สร้างการบันทึกที่รักษาเสียงรบกวนจากภายนอก เสียง: VALL-E
นักวิจัยยังตั้งข้อสังเกตว่าความเป็นไปได้การสร้างเสียงที่เหมือนกับเสียงต้นฉบับสร้างความท้าทายด้านความปลอดภัยใหม่ๆ เนื่องจากอาจถูกโจมตีโดยมิจฉาชีพได้ พวกเขาเชื่อว่าก่อนที่โมเดลจะเผยแพร่สู่สาธารณะในวงกว้าง จำเป็นต้องมีการพัฒนาระบบที่จะจดจำบันทึกที่สร้างโดย AI
อ่านเพิ่มเติม:
ความลับของความทนทานของคอนกรีตโรมันถูกเปิดเผย: สามารถซ่อมแซมได้
นักพันธุศาสตร์ระบุว่าอายุของปฏิสนธิในมนุษย์เปลี่ยนแปลงไปอย่างไรในช่วง 250,000 ปี
พระอาทิตย์เปิดปีแสงวาบแรงสุดขั้ว