يحاكي الذكاء الاصطناعي من Microsoft أي صوت بناءً على تسجيل مدته ثلاث ثوانٍ

قدمت مايكروسوفت الذكاء الاصطناعي VALL-E. يمكنه إنشاء تسجيلات صوتية بناءً على

عينة ثلاث ثواني وجدت الدراسة أن النموذج الذي تم تدريبه على العديد من المقتطفات القصيرة أنتج خطابًا باللغة الإنجليزية لا يمكن تمييزه عن الصوت الأصلي.

باحثون في جامعة كورنيلاستخدم نموذج VALL-E لتحليل آليات توليد الكلام. في عملهم ، الذي تم نشر النسخة الأولية منه على خادم arXiv ، يفحص العلماء شبكة عصبية مدربة على أساس 60.000 ساعة من الكلام باللغة الإنجليزية. هذا مئات المرات أكثر من نظائرها الموجودة.

كيف يعمل الذكاء الاصطناعي. الصورة: VALL-E

أظهر التحليل أن النظام لديه ما يكفيمقطع مدته ثلاث ثوان لتقليد صوت المحاور. في الوقت نفسه ، يتفوق Vall-E كثيرًا على نظام TTS الحالي من حيث الصوت الطبيعي للكلام والتشابه الصوتي. بالإضافة إلى ذلك ، يمكنه الحفاظ على مشاعر المتحدث والبيئة الصوتية (تأثير الخصائص الصوتية للغرفة التي تم فيها التسجيل الأصلي).

لا يزال نظام التوليد المطور مغلقًاالوصول العام ، لكن الباحثين نشروا أمثلة على عينات وملفات صوتية منتهية على الموقع على الإنترنت. تتفاوت جودة عينات الكلام المُولَّد. في حين أن بعضها يبدو طبيعيًا ، يبدو البعض الآخر ناتجًا عن الآلة. لاحظ مؤلفو التطوير أن المزيد من التدريب بأصوات مختلفة ، بما في ذلك لهجات مختلفة ، سيحسن جودة النظام.

عينة صوت الإنسان. الصوت: VALL-E

تسجيل منشئ يحافظ على الضوضاء الخارجية. الصوت: VALL-E

الباحثون لاحظوا أيضًا أن الاحتماليؤدي توليد أصوات مطابقة للأصوات الأصلية إلى خلق تحديات أمنية جديدة حيث يمكن للمحتالين استغلالها. وهم يعتقدون أنه قبل طرح النموذج على نطاق واسع للجمهور ، يجب تطوير نظام يتعرف على السجلات التي تم إنشاؤها بواسطة الذكاء الاصطناعي.

قراءة المزيد:

تم الكشف عن سر متانة الخرسانة الرومانية: يمكن ترميمها

لقد حدد علماء الوراثة كيف تغير عمر الحمل عند البشر على مدى 250000 سنة

افتتحت الشمس العام مع وميض أقوى فئة