يتم تعليم نظارات الذكاء الاصطناعي "قراءة الشفاه" دون استخدام الكاميرا

قام الباحثون في جامعة كورنيل بتطوير واجهة EchoSpeech للتعرف على الكلام الهادئ.

الذي يستخدم الإدراك الصوتي والذكاء الاصطناعي للتعرف المستمر على ما يصل إلى 31 أمرًا غير صوتي بناءً على حركات الشفاه والفم. تتم معالجة المعلومات محليًا على الهاتف الذكي، مما يضمن سرية البيانات.

تم تجهيز نظارات EchoSpeech بزوج من الميكروفونات ومكبرات صوت أصغر من الممحاة الموجودة في نهاية القلم الرصاص ولا تستخدم الكاميرا. يرسل الجهاز ويلتقط موجات صوتية تشير إلى التغيرات في ديناميكيات عضلات الوجه والفم. تقوم خوارزمية التعلم العميق بتحليل ملفات تعريف الصدى هذه في الوقت الفعلي بدقة تبلغ حوالي 95%. 

كيف يعمل برنامج EchoSpeech. الصورة: Ruidong Zhang et al.

يتم إرسال البيانات المستلمة عبر البلوتوث إلىفي الوقت الفعلي على الهاتف الذكي ، تتم معالجتها وتخزينها محليًا على الجهاز. أبلغ المطورون أن EchoSpeech يستغرق بضع دقائق للتدريب لمستخدم معين.

بالنسبة للأشخاص الذين لا يستطيعون التحدث ، يمكن أن تكون تقنية الكلام الصامت هذه مُركِّبًا صوتيًا رائعًا. يمكنها أن تعيد صوت المرضى للمرضى.

Ruidong Zhang ، المؤلف المشارك للتنمية

معظم تقنيات التعرف على الكلام الصامتتقتصر على مجموعة مختارة من الأوامر المحددة مسبقًا وتتطلب من المستخدم والشخص الذي يتحدثون إليه النظر إلى الكاميرا أو ارتدائها. هذا يعقد بشكل كبير إمكانية استخدام هذه الأجهزة. بالإضافة إلى ذلك ، يتطلب تدفق البيانات الكبير المعالجة في السحابة ، مما ينتهك خصوصية المستخدم.

في شكله الحالي ، يمكن لـ EchoSpeechتستخدم للتواصل مع الآخرين عبر هاتفك الذكي في الأماكن التي يكون فيها التحدث غير مريح أو غير مناسب ، مثل مطعم صاخب أو مكتبة هادئة. يضيف المطورون أنه يمكن أيضًا إقران واجهة الكلام الصامت بقلم إلكتروني وبرنامج تصميم مثل CAD ، مما يلغي فعليًا الحاجة إلى لوحة المفاتيح والماوس.

قراءة المزيد:

اكتشف العلماء طبيعة الإشارات الراديوية الغريبة من كوكب مشابه للأرض

اندلعت هالة حمراء فوق إيطاليا. الآن تم شرح طبيعتها

وجد ويب أقدم ثقب أسود في الكون