قدمت مايكروسوفت الذكاء الاصطناعي VALL-E. يمكنه إنشاء تسجيلات صوتية بناءً على
باحثون في جامعة كورنيلاستخدم نموذج VALL-E لتحليل آليات توليد الكلام. في عملهم ، الذي تم نشر النسخة الأولية منه على خادم arXiv ، يفحص العلماء شبكة عصبية مدربة على أساس 60.000 ساعة من الكلام باللغة الإنجليزية. هذا مئات المرات أكثر من نظائرها الموجودة.
كيف يعمل الذكاء الاصطناعي. الصورة: VALL-E
أظهر التحليل أن النظام لديه ما يكفيمقطع مدته ثلاث ثوان لتقليد صوت المحاور. في الوقت نفسه ، يتفوق Vall-E كثيرًا على نظام TTS الحالي من حيث الصوت الطبيعي للكلام والتشابه الصوتي. بالإضافة إلى ذلك ، يمكنه الحفاظ على مشاعر المتحدث والبيئة الصوتية (تأثير الخصائص الصوتية للغرفة التي تم فيها التسجيل الأصلي).
لا يزال نظام التوليد المطور مغلقًاالوصول العام ، لكن الباحثين نشروا أمثلة على عينات وملفات صوتية منتهية على الموقع على الإنترنت. تتفاوت جودة عينات الكلام المُولَّد. في حين أن بعضها يبدو طبيعيًا ، يبدو البعض الآخر ناتجًا عن الآلة. لاحظ مؤلفو التطوير أن المزيد من التدريب بأصوات مختلفة ، بما في ذلك لهجات مختلفة ، سيحسن جودة النظام.
عينة صوت الإنسان. الصوت: VALL-E
تسجيل منشئ يحافظ على الضوضاء الخارجية. الصوت: VALL-E
الباحثون لاحظوا أيضًا أن الاحتماليؤدي توليد أصوات مطابقة للأصوات الأصلية إلى خلق تحديات أمنية جديدة حيث يمكن للمحتالين استغلالها. وهم يعتقدون أنه قبل طرح النموذج على نطاق واسع للجمهور ، يجب تطوير نظام يتعرف على السجلات التي تم إنشاؤها بواسطة الذكاء الاصطناعي.
قراءة المزيد:
تم الكشف عن سر متانة الخرسانة الرومانية: يمكن ترميمها
لقد حدد علماء الوراثة كيف تغير عمر الحمل عند البشر على مدى 250000 سنة
افتتحت الشمس العام مع وميض أقوى فئة