Давайте голосом: як ІІ непомітно для нас замінив операторів у кол-центрах

Розумні «говорки»

Голос є природним інструментом спілкування.Вирішуйте проблеми усно, а не

У комунікації між бізнесом і клієнтами це зручний і нативний спосіб взаємодії.Але не кожна компанія може розширити кількість співробітників колл-центру пропорційно темпам зростання клієнтської бази.Автоматизація – ефективний спосіб масштабування живої комунікації з клієнтами.Дотримуйтесь звичних способів спілкування та досягайте більшої кількості контактів без шкоди для якості.

Голосові технології використовують у багатьох сферах,і вони підходять для будь-яких аудиторій: дітей приваблює інтерактивна «говорка», молоді люди цінують голосове управління розумними девайсами, а людям похилого віку асистент зачитує новини. Але найбільш затребувані голосові помічники в тих галузях, де багато точкових комунікацій із клієнтами — у фінансах, ритейлі, телекомі.

«Голосові технології використовують у багатьох сферах»

Найбільші компанії використовують голосовітехнології вже не перший рік. У Bank of America з 2017 року "працює" віртуальний помічник Erica. Mercedes-Benz з 2018 року впроваджує цифровий комплекс User Experience (MBUX), що «розуміє» голосові команди. Рітейлер Walmart запустив програму з голосовим асистентом Ask Sam, він допомагає покупцям з пошуком продуктів. За даними Adobe Analytics, 91% брендів вже вкладають значні кошти в голосові рішення та планують нарощувати інвестиції. Російський ринок мовленнєвого ІІ в найближчі п'ять років зросте з 38 до 81% і в 2025 році вийде на рівень $561 млн, прогнозує компанія Just AI.

Вірю – не вірю

Бізнес оцінюють ефективність впровадженняголосових технологій, орієнтуючись на рівень задоволеності клієнтів та їх лояльності до бренду. Але багато клієнтів ставляться до інновацій зі стриманим ентузіазмом. За даними Voicebot.ai, лише 45% користувачів хочуть бачити голосові помічники у мобільних додатках. Головні причини неприязні, за даними компанії Neuro.net, - низька якість відповідей та синтетична мова голосових помічників. Ці проблеми притаманні інтерфейсів, побудованих на технологіях минулого покоління. Сучасні алгоритми машинного навчання дозволяють синтезувати голоси, позбавлені бездушності.

Іншим стримуючим фактором є те, щоголосові технології набули поширення як у «хороших» з погляду клієнта сценаріях, так і в «поганих». На ринку поки що не так багато компаній, що спеціалізуються на розробці голосових інтерфейсів, і кількість голосів, які вони можуть запропонувати, обмежена. Виходить, що якщо сьогодні людині набридають рекламними чи шахрайськими дзвінками, а завтра пролунає корисний дзвінок, — комунікація не буде успішною, бо «всі роботи на один голос». Якщо репутація голосового помічника зіпсована, ефективність корисних для клієнта дзвінків знижується до нуля. Тому створюються Brand Voice – унікального голосу бренду.

«Унікальний голос – важлива частина бренду, яклоготип або фірмовий шрифт. Все більше наших клієнтів використовують цю функцію та ведуть із замовниками діалог унікальними голосами. Ми записуємо набір фраз із певною інтонацією голосом співробітника компанії чи диктора. А численні динамічні дані — номери телефонів або адреси — система, що самонавчається, формує автоматично, відтворюючи голос співробітника і зберігаючи реалістичні інтонації. Так компанії автоматизують комунікації, але зберігають лояльність клієнтів та підвищують конверсію: людям приємно, що з ними розмовляють живим голосом і вони охоче ведуть діалог».

Іван Артем'єв, директор з продукту МТТ

Заговорити модель

Вартість готового Brand Voice починається від 150тис. рублів і залежить від сфери застосування та складності моделі синтезу голосу. Процес створення рішення складається із двох частин — технічної та логічної, за кожну відповідає окрема продуктова команда.

Важливий етап у цій частині - вибір голосу, наоснові якого синтезуватиметься мова. Голос має інтонаційно відбивати ті атрибути бренду, які компанії важливо просувати. Професійному диктору чи актору дубляжу потрібно наговорити під запис до 40 годин мовних конструкцій. Запис має бути якісним, без зайвих шумів, а вимова — правильною, адже на цьому матеріалі навчатиметься модель голосового робота.

На навчання моделі та впровадження повноцінногосинтезу йде від місяця до півроку залежно від складності. Але технології розвиваються, а час запису у студії поступово скорочується. Не виключено, що в майбутньому можна буде отримувати хороший голосовий робот, використавши всього 2-3 години вихідного аудіо.

"Вартість готового Brand Voice починається від 150 тис. рублів"

Вчимо штучний інтелект

Коли запис готовий, починається навчанняголосової моделі. Вона обробляє записаний матеріал, вчиться відтворювати голос і в результаті здатна сама синтезувати мову з будь-якого тексту.

Для вирішення такого класу задач застосовуютьсяТрансформери — архітектура глибоких нейронних мереж, представлена ​​в 2017 році дослідниками Google Brain. Найвідоміші трансформери - це нейромережі GPT (Generative Pre-trained Transformer) некомерційної організації OpenAI. Ця технологія, наприклад, дозволяє найточніше заповнити пробіл або передбачити наступне слово у фразі, орієнтуючись на попередні слова.

За таким принципом створюються голосові BrandVoice-рішення. Навчена модель проганяється на великій кількості даних - запускається кілька моделей з різними параметрами і на виході вибирається найкраща. Важливо, щоб робот правильно перекладав текст у голос, не помилявся у вимові та інтонаціях. Для підвищення якості синтезу проводиться донавчання моделі під конкретні сценарії використання, що дозволяє отримати голоси, що найбільш звучать.

Де логіка?

Смислове наповнення робота, його бізнес-логіка тасценарії взаємодії з людьми створюють у тісній зв'язці із замовником. Щоб голосовий асистент міг принести бізнесу максимальну користь, потрібно добре розуміти, як цей бізнес організований, з якими питаннями та в яких ситуаціях клієнт звертатиметься до асистента.

Вигадувати кейси з нуля - погана ідея, логікавзаємодія з клієнтом повинна бути реальною. Якщо помічник зустрічає людину на телефонній лінії, то в основу сценарію лягає консультаційний, який продає або якийсь інший скрипт — послідовність дій співробітника кол-центру в діалозі з клієнтом. У підготовці сценарію для голосового помічника допомагає аналіз запитів реальних користувачів, інтерв'ю зі співробітниками, які з ними регулярно спілкуються або UX-експерименти, націлені на те, щоб з'ясувати реальні запити людей.

«Якщо асистент зустрічає людину на телефонній лінії, то в основу сценарію лягає консультаційний, який продає чи якийсь інший скрипт»

Багато замовників намагаються, щоб голосовийпомічник допомагав клієнтам вирішувати питання, з якими їм складно впорається самостійно. Наприклад, на відкуп роботу краще передати функції, які «глибоко» заховані або неочевидні під час роботи в мобільному додатку.

Ірина Степанова, дизайнерка розмовного інтерфейсу та аналітикиня Just AI:«Треба розуміти, що в різних каналах – чат,додаток, телефон - клієнт поводиться по-різному. Тому насамперед потрібно уважно вивчити customer journey map у тих каналах, де планується використання голосового помічника. У візуальному інтерфейсі у клієнта менше способів помилитися - перед очима майже все, що може запропонувати сервіс. У голосовому інтерфейсі користувач негаразд відчуває обмеження сервісу, і треба передбачити, що людина може озвучити помічнику запит довгою фразою, у якій необхідно виділити значні фрази, якими програма визначить суть запита. Окремим завданням є проектування сценарію офтопіка, якого немає готового скрипта. Клієнт може запитати будь-що. Людським робота робить варіативність відповідей, коли на одне й те саме питання він відповідає по-різному».

Однією з проблем при розробці голосового інтерфейсу є видимість: як розповісти історію, яку розповість асистентЧи можете ви допомогти з цим?Тут потрібно  діяти на випередження — озвучувати навички та вміння і вести користувача за сценарієм, підказуючи подальші кроки, допомагаючи йому в тупикових відгалуженнях, коли він потрапитьРозповісти про здібності асистента можна і поза самим помічником: і в рекламі, і в розсилках, і за допомогою інших маркетингових інструментів.

Голосовий помічник повинен не лише приноситикористь, а й бути цікавими співрозмовником. Розробники завжди намагаються вкласти в "мозок" Brand Voice якнайбільше, наділити його характером та індивідуальністю.

Навчання - процес безперервний

Розвиток голосової моделі не припиняється і післяїї введення в експлуатацію. Через півроку роботи якість моделі покращується, а через рік розвивається до невпізнання. Якщо клієнт дозволив логування, тобто запис інформації про події під час роботи голосового асистента, всі дані про помилки збираються і використовуються для донавчання моделі. Логування може знадобитися, коли помічник не може розпізнати специфічні слова та фрази або помиляється в їхній вимові, наприклад, у назвах медичних препаратів або в асортименті служби доставки.

Створення Brand Voice зазвичай відбувається у хмарнійі вимагає використання персональних даних, що часто викликає у клієнтів побоювання з точки зору безпеки. І хоча недовіра до хмар — застарілий стереотип, якщо клієнту важливо, щоб дані не виходили за периметр компанії, їх обробка може проводитися строго всередині ІТ-контуру організації. Персональні дані застосовуються і при логуванні, для забезпечення конфіденційності дані анонімізуються.

Створення нових сценаріїв роботи та донавчаннямоделей для Brand Voice – процес постійний. По суті, замовляючи готове голосове рішення, клієнт отримує сервіс, що безперервно вдосконалюється. По-справжньому якісний голосовий помічник здатний не тільки помітити штат цілого колл-центру, але і стати яскравим акцентом, що додає образу компанії індивідуальність.

Читати далі

«Ноєв ковчег» Ілона Маска доставить на Марс мільйон людей

Астрономи з Японії знайшли у галактиці невідому структуру

Шабля невідомого походження знайдено у Греції. Вчених спантеличив дивний артефакт