دعونا نسمع صوتًا: كيف استبدل الذكاء الاصطناعي المشغلين بهدوء في مراكز الاتصال

"المتحدثون" الأذكياء

الصوت هو أداة تواصل طبيعية. يرغب العديد من الأشخاص في حل المشكلات لفظيًا وليس شفهيًا

كتابيًا، ببساطة لأنه أسرع.في التواصل التجاري مع العملاء، تعد هذه طريقة مريحة ومبتكرة للتفاعل. ولكن لا تستطيع كل شركة زيادة عدد موظفي مركز الاتصال لديها بما يتناسب مع معدل نمو قاعدة عملائها. أصبحت الأتمتة وسيلة فعالة لتوسيع نطاق التواصل المباشر مع العملاء. فهو يسمح لك بالحفاظ على طرق الاتصال المألوفة والوصول إلى عدد أكبر من جهات الاتصال دون التضحية بالجودة.

تستخدم تقنيات الصوت في العديد من المجالات ،وهي مناسبة لأي جمهور: ينجذب الأطفال إلى "المتحدث" التفاعلي ، ويقدر الشباب التحكم الصوتي للأجهزة الذكية ، ويقرأ المساعد الأخبار لكبار السن. لكن المساعدين الصوتيين هم الأكثر طلبًا في تلك الصناعات حيث يوجد العديد من الاتصالات النقطية مع العملاء - في التمويل وتجارة التجزئة والاتصالات.

"تُستخدم تقنيات الصوت في العديد من المجالات"

الشركات الكبرى تستخدم الصوتالتكنولوجيا ليست السنة الأولى. منذ عام 2017 ، يدير Bank of America منصب Erica ، وهو مساعد افتراضي. منذ عام 2018 ، تقدم مرسيدس-بنز مجمع تجربة المستخدم الرقمي (MBUX) الذي يفهم الأوامر الصوتية. أطلق بائع التجزئة Walmart تطبيقًا مع المساعد الصوتي Ask Sam ، والذي يساعد العملاء في البحث عن المنتج. وفقًا لـ Adobe Analytics ، تستثمر 91٪ من العلامات التجارية بالفعل بكثافة في الحلول الصوتية وتخطط لزيادة الاستثمار. سينمو سوق الذكاء الاصطناعي للخطاب الروسي من 38٪ إلى 81٪ في السنوات الخمس المقبلة وسيصل إلى 561 مليون دولار في عام 2025 ، كما تتوقع Just AI.

أعتقد - لا أصدق

تقييم الأعمال لفعالية التنفيذالتقنيات الصوتية ، مع التركيز على رضا العملاء وولاء العلامة التجارية. لكن العديد من العملاء ينظرون إلى الابتكار بحماسة مقيدة. وفقًا لـ Voicebot.ai ، يريد 45٪ فقط من المستخدمين رؤية المساعدين الصوتيين في تطبيقات الهاتف المحمول. الأسباب الرئيسية للكراهية ، وفقًا لموقع Neuro.net ، هي ضعف جودة الإجابات والكلام التركيبي للمساعدين الصوتيين. هذه المشاكل نموذجية للواجهات المبنية على تقنيات الجيل الماضي. تتيح خوارزميات التعلم الآلي الحديثة توليف أصوات خالية من الروح.

عامل مقيد آخر هو أنأصبحت تقنيات الصوت منتشرة على نطاق واسع سواء في السيناريوهات "الجيدة" من وجهة نظر العميل أو في السيناريوهات "السيئة". لا يوجد الكثير من الشركات المتخصصة في تطوير واجهات الصوت في السوق حتى الآن ، وعدد الأصوات التي يمكنهم تقديمها محدود. اتضح أنه إذا كان الشخص يزعج اليوم بالإعلان أو المكالمات الاحتيالية ، وغدًا ستصدر مكالمة مفيدة ، فلن يكون الاتصال ناجحًا ، لأن "كل الروبوتات لها صوت واحد". في حالة تلف سمعة المساعد الصوتي ، تنخفض فعالية المكالمات المفيدة للعميل إلى الصفر. لذلك ، تم إنشاء Brand Voice - صوت فريد للعلامة التجارية.

"الصوت الفريد جزء مهم من العلامة التجارية ، مثلشعار أو خط الشركة. يستخدم المزيد والمزيد من عملائنا هذه الميزة ويتفاعلون مع العملاء بأصوات فريدة. نسجل مجموعة من العبارات بنبرة معينة بصوت موظف الشركة أو مذيع. والعديد من البيانات الديناميكية - أرقام الهواتف أو العناوين - يقوم نظام التعلم الذاتي تلقائيًا بإنشاء وإعادة إنتاج صوت الموظف والحفاظ على نغمات واقعية. هذه هي الطريقة التي تعمل بها الشركات على أتمتة الاتصالات ، مع الاحتفاظ بولاء العملاء وزيادة التحويل: يسعد الأشخاص بالتحدث إليهم بصوت حيوي ، وهم على استعداد لإجراء حوار. "

إيفان أرتيمييف ، مدير منتج MTT

نموذج التحدث

تبدأ تكلفة براند فويس من 150ألف روبل ويعتمد على نطاق وتعقيد نموذج التوليف الصوتي. تتكون عملية إنشاء حل من جزأين - تقني ومنطقي ، كل منهما مسؤولية فريق منتج منفصل.

خطوة مهمة في هذا الجزء هي اختيار الصوتعلى أي الكلام سيتم تصنيعه. يجب أن يعكس الصوت سمات العلامة التجارية التي من المهم أن تروج لها الشركة. سيحتاج مذيع محترف أو ممثل دبلجة إلى التحدث لمدة تصل إلى 40 ساعة من التراكيب اللغوية تحت التسجيل. يجب أن يكون التسجيل بجودة عالية وبدون ضوضاء غير ضرورية وأن يكون النطق صحيحًا لأن نموذج الروبوت الصوتي سيتم تدريبه على هذه المادة.

لتدريب النموذج وتنفيذ برنامج كامليستغرق التركيب من شهر إلى ستة أشهر ، حسب درجة التعقيد. لكن التكنولوجيا تتقدم ، ووقت التسجيل في الاستوديو يتناقص تدريجياً. من المحتمل أنه سيكون من الممكن في المستقبل الحصول على روبوت صوتي جيد باستخدام 2-3 ساعات فقط من الصوت الأصلي.

"تكلفة العلامة التجارية النهائية تبدأ من 150000 روبل"

تعلم الذكاء الاصطناعي

عندما يكون التسجيل جاهزًا ، يبدأ التدريبنموذج صوتي. تقوم بمعالجة المواد المسجلة ، وتتعلم إعادة إنتاج صوتها ، ونتيجة لذلك ، يمكنها توليف الكلام من أي نص عشوائي.

لحل هذه الفئة من المشاكل ،المحولات هي بنية شبكة عصبية عميقة قدمها باحثو Google Brain في عام 2017. أشهر المحولات هي الشبكات العصبية GPT (المحولات التوليدية المدربة مسبقًا) لمنظمة OpenAI غير الربحية. تتيح لك هذه التقنية ، على سبيل المثال ، ملء الفراغ بدقة أو توقع الكلمة التالية في عبارة بناءً على الكلمات السابقة.

وفقًا لهذا المبدأ ، يتم إنشاء العلامات التجارية الصوتية.الحلول الصوتية. يتم تشغيل النموذج المدرَّب على كمية هائلة من البيانات - يتم إطلاق العديد من النماذج بمعلمات مختلفة ويتم اختيار أفضلها عند الإخراج. من المهم أن يقوم الروبوت "بترجمة" النص إلى صوت بشكل صحيح ، ولا يخطئ في النطق والتنغيم. لتحسين جودة التوليف ، يتم تدريب النموذج بشكل أكبر على حالات استخدام محددة ، مما يسمح لك بالحصول على أكثر الأصوات الطبيعية.

أين المنطق؟

المحتوى الدلالي للروبوت ومنطق عمله ويتم إنشاء سيناريوهات التفاعل مع الأشخاص بالتعاون الوثيق مع العميل. من أجل أن يحقق المساعد الصوتي أقصى فائدة للأعمال التجارية ، يجب أن يكون لديك فهم جيد لكيفية تنظيم هذا العمل ، والأسئلة والمواقف التي سيتصل بها العميل.

اختراع الحالات من الصفر فكرة سيئة ، منطقيجب أن يكون التفاعل مع العميل حقيقيًا. إذا التقى أحد المساعدين بشخص ما على خط الهاتف ، فإن النص يعتمد على استشارة أو بيع أو أي نص آخر - سلسلة من الإجراءات لموظف مركز الاتصال في حوار مع العميل. عند إعداد برنامج نصي لمساعد صوتي ، فإنه يساعد على تحليل طلبات المستخدمين الحقيقيين ، وإجراء مقابلات مع الموظفين الذين يتواصلون معهم بانتظام ، أو تجارب UX التي تهدف إلى معرفة الاحتياجات الحقيقية للأشخاص.

"إذا التقى أحد المساعدين بشخص على خط الهاتف ، فإن النص يستند إلى استشارة أو مبيعات أو نص برمجي آخر"

يحاول العديد من العملاء التعبير عن رأيهمساعد المساعد العملاء في حل المشكلات التي يصعب عليهم التعامل معها بأنفسهم. على سبيل المثال ، تحت رحمة الروبوت ، من الأفضل نقل الوظائف المخفية "بعمق" أو غير الواضحة عند العمل في تطبيق الهاتف المحمول.

إيرينا ستيبانوفا، مصممة ومحللة واجهات المحادثة في Just AI:"عليك أن تفهم أنه توجد دردشة في القنوات المختلفة ،التطبيق ، الهاتف - يتصرف العميل بشكل مختلف. لذلك ، أولاً وقبل كل شيء ، تحتاج إلى دراسة خريطة رحلة العميل بعناية في تلك القنوات التي تخطط لتنفيذ مساعد صوتي فيها. في الواجهة المرئية ، يكون لدى العميل طرق أقل لارتكاب الأخطاء - فكل شيء تقريبًا تقدمه الخدمة يكون أمام عينيه. في الواجهة الصوتية ، لا يشعر المستخدم بمحدودية الخدمة بشكل جيد ، ومن الضروري توفير أنه يمكن لأي شخص التعبير عن طلب إلى مساعد بجملة طويلة يكون من الضروري فيها إبراز العبارات المهمة التي من خلالها سيحدد البرنامج جوهر الطلب. تتمثل المهمة المنفصلة في تصميم برنامج نصي غير موضعي لا يوجد له نص جاهز. يمكن للعميل أن يطلب أي شيء. ما يجعل الإنسان الآلي هو تنوع الإجابات ، عندما يجيب على نفس السؤال بطرق مختلفة ".

إحدى مشاكل تطوير الصوتالواجهة - قابلية الاكتشاف: كيف تعرف ما يمكن للمساعد فعله وما يمكنه المساعدة فيه؟ وهنا لا بد  التصرف بشكل استباقي - المهارات والقدرات الصوتية وتوجيه المستخدم خلال السيناريو، واقتراح المزيد من الخطوات، ومساعدته في الفروع المسدودة عندما يدخل في "معالجة الطلبات غير المعترف بها". يمكنك أيضًا التحدث عن قدرات المساعد خارج المساعد نفسه: في الإعلانات والمراسلات واستخدام أدوات التسويق الأخرى.

لا يجب على المساعد الصوتي إحضار ملفاتالاستفادة ، ولكن أيضًا كن متحدثًا مثيرًا للاهتمام. يحاول المطورون دائمًا وضع أكبر قدر ممكن في "عقل" براند فويس ، مما يمنحها طابعًا وشخصية.

التعلم عملية مستمرة

لا يتوقف تطوير النموذج الصوتي حتى بعد ذلكالتكليف. بعد ستة أشهر من العمل ، تتحسن جودة النموذج ، وبعد عام يتطور بشكل لا يمكن التعرف عليه. إذا سمح العميل بالتسجيل ، أي تسجيل المعلومات حول الأحداث أثناء تشغيل المساعد الصوتي ، فسيتم جمع جميع بيانات الخطأ واستخدامها لإعادة تدريب النموذج. قد يكون التسجيل مطلوبًا عندما يتعذر على المساعد التعرف على كلمات وعبارات معينة أو ارتكاب أخطاء في نطقها ، على سبيل المثال ، في أسماء الأدوية أو في مجموعة متنوعة من خدمات التوصيل.

عادة ما يتم إنشاء صوت العلامة التجارية في السحابةالبيئة وتتطلب استخدام البيانات الشخصية ، الأمر الذي غالبًا ما يثير مخاوف أمنية بين العملاء. وعلى الرغم من أن عدم الثقة في السحابة هو صورة نمطية قديمة ، إذا كان من المهم للعميل ألا تتجاوز البيانات حدود الشركة ، فيمكن معالجتها بدقة داخل دائرة تكنولوجيا المعلومات الخاصة بالمؤسسة. تُستخدم البيانات الشخصية أيضًا أثناء التسجيل ، لضمان سريتها ، تكون البيانات مجهولة المصدر.

إنشاء سيناريوهات عمل جديدة وتدريب إضافينماذج لـ Brand Voice هي عملية مستمرة. في الواقع ، من خلال طلب حل صوتي جاهز ، يتلقى العميل خدمة يتم تحسينها باستمرار. لا يمكن للمساعد الصوتي عالي الجودة أن يلاحظ موظفي مركز اتصال بأكمله فحسب ، بل يصبح أيضًا لهجة مشرقة تضيف الفردية إلى صورة الشركة.

قراءة المزيد

سفينة نوح إيلون ماسك ستأخذ مليون شخص إلى المريخ

وجد علماء الفلك من اليابان بنية غير معروفة في المجرة

العثور على صابر مجهول الأصل في اليونان. العلماء في حيرة من قبل قطعة أثرية غريبة