умни "говорещи"
Гласът е естествен инструмент за комуникация. Много хора искат да разрешават проблемите устно, а не
Гласовите технологии се използват в много области,и те са подходящи за всяка аудитория: децата са привлечени от интерактивен „говорещ“, младите хора оценяват гласовото управление на интелигентните устройства, а асистентът чете новините на възрастните хора. Но гласовите асистенти са най-търсени в онези индустрии, където има много точкови комуникации с клиенти - във финансите, търговията на дребно и телекомуникациите.
„Гласовите технологии се използват в много области“
Големите компании използват гластехнология не е първа година. От 2017 г. Bank of America управлява Ерика, виртуален асистент. От 2018 г. Mercedes-Benz въвежда комплекс за цифрово потребителско изживяване (MBUX), който разбира гласови команди. Търговецът на дребно Walmart пусна приложение с гласовия асистент Ask Sam, което помага на клиентите при търсене на продукти. Според Adobe Analytics 91% от марките вече инвестират сериозно в гласови решения и планират да увеличат инвестициите. Пазарът на руския говор на AI ще нарасне от 38% на 81% през следващите пет години и ще достигне 561 милиона долара през 2025 г., прогнозира Just AI.
Вярвам - не вярвам
Бизнесът оценява ефективността на изпълнениетогласови технологии, фокусирани върху удовлетвореността на клиентите и лоялността към марката. Но много клиенти гледат на иновациите със сдържан ентусиазъм. Според Voicebot.ai, само 45% от потребителите искат да виждат гласови асистенти в мобилни приложения. Основните причини за неприязън според Neuro.net са лошото качество на отговорите и синтетичната реч на гласовите асистенти. Тези проблеми са типични за интерфейси, изградени върху технологии от миналото поколение. Съвременните алгоритми за машинно обучение правят възможно синтезирането на гласове, лишени от бездушие.
Друг ограничаващ фактор е товагласовите технологии са получили широко разпространение както в "добри" сценарии от гледна точка на клиента, така и в "лоши". Все още няма толкова много компании, специализирани в разработването на гласови интерфейси на пазара, а броят на гласовете, които могат да предложат, е ограничен. Оказва се, че ако днес човек се притеснява от реклама или измамни обаждания, а утре иззвъни полезно обаждане, комуникацията няма да е успешна, защото „всички роботи имат един глас“. Ако репутацията на гласовия асистент е нарушена, ефективността на обажданията, полезни за клиента, пада до нула. Затова е създаден Brand Voice – уникален глас на марката.
„Уникалният глас е важна част от марката, т.клого или фирмен шрифт. Все повече и повече от нашите клиенти използват тази функция и взаимодействат с клиенти с уникални гласове. Записваме набор от фрази с определена интонация в гласа на служител на компанията или на диктор. И множество динамични данни – телефонни номера или адреси – самообучаващата се система генерира автоматично, възпроизвеждайки гласа на служителя и поддържайки реалистични интонации. Ето как компаниите автоматизират комуникациите, но запазват лоялността на клиентите и увеличават конверсията: хората са доволни, че им се говори с жив глас и са готови да водят диалог.
Иван Артемиев, продуктов директор на МТТ
Говорете модел
Цената на готовия Brand Voice започва от 150хиляди рубли и зависи от обхвата и сложността на модела за синтез на глас. Процесът на създаване на решение се състои от две части – техническа и логическа, като всяка е отговорност на отделен продуктов екип.
Важна стъпка в тази част е изборът на глас, навърху които ще се синтезира речта. Гласът трябва интонационно да отразява онези атрибути на марката, които е важно за компанията да популяризира. Професионален диктор или дублаж ще трябва да говори до 40 часа езикови конструкции под записа. Записът трябва да е с високо качество, без излишен шум, а произношението да е правилно, защото моделът на гласовия робот ще бъде обучен на този материал.
За обучение на модела и прилагане на пълноцененсинтезът отнема от месец до шест месеца, в зависимост от сложността. Но технологиите напредват и времето за запис в студиото постепенно намалява. Възможно е в бъдеще да бъде възможно да получите добър гласов робот, използвайки само 2-3 часа оригинално аудио.
„Цената на завършен Brand Voice започва от 150 000 рубли“
Изучаване на изкуствен интелект
Когато записът е готов, обучението започвагласов модел. Тя обработва записания материал, научава се да възпроизвежда гласа си и в резултат на това е в състояние да синтезира реч от произволен текст.
За да разрешите този клас проблеми,Transformers е архитектура на дълбока невронна мрежа, въведена през 2017 г. от изследователи на Google Brain. Най-известните трансформатори са невронните мрежи GPT (Generative Pre-trained Transformer) на организацията с нестопанска цел OpenAI. Тази технология, например, ви позволява най-точно да попълните празнина или да предвидите следващата дума във фраза въз основа на предишни думи.
На този принцип се създават гласови марки.Гласови решения. Обученият модел се изпълнява върху огромно количество данни - стартират се няколко модела с различни параметри и на изхода се избира най-добрият. Важно е роботът правилно да „превежда“ текста в глас, да не прави грешки в произношението и интонацията. За да се подобри качеството на синтеза, моделът е допълнително обучен за конкретни случаи на употреба, което ви позволява да получите най-естествено звучащи гласове.
Къде е логиката?
Семантичното съдържание на робота, неговата бизнес логика исценариите на взаимодействие с хората се създават в тясна връзка с клиента. За да може гласовият асистент да донесе максимална полза за бизнеса, трябва да имате добро разбиране как е организиран този бизнес, с какви въпроси и в какви ситуации клиентът ще се свърже с асистента.
Измислянето на случаи от нулата е лоша идея, логикаВзаимодействието с клиента трябва да бъде истинско. Ако асистентът срещне човек на телефонната линия, тогава сценарият се основава на консултантски, продаващ или някакъв друг скрипт - последователност от действия на служител на кол център в диалог с клиент. Когато изготвяте скрипт за гласов асистент, той помага да се анализират заявките на реални потребители, интервюта със служители, които общуват редовно с тях, или UX експерименти, насочени към установяване на реалните нужди на хората.
„Ако асистент срещне човек по телефонната линия, тогава сценарият се основава на консултантски, търговски или някакъв друг сценарий“
Много клиенти се опитват да гласятасистентът помага на клиентите да решават проблеми, които им е трудно да се справят сами. Например, на милостта на робота е по-добре да прехвърляте функции, които са „дълбоко“ скрити или неочевидни, когато работите в мобилно приложение.
Ирина Степанова, дизайнер-аналитик на разговорни интерфейси в Just AI:„Трябва да разберете, че в различни канали има чат,приложение, телефон - клиентът се държи различно. Ето защо, на първо място, трябва внимателно да проучите картата на пътуването на клиента в онези канали, където планирате да внедрите гласов асистент. Във визуалния интерфейс клиентът има по-малко начини да сгреши – почти всичко, което предлага услугата, е пред очите му. В гласовия интерфейс потребителят не усеща толкова добре ограниченията на услугата и е необходимо да се предвиди, че човек може да изрази заявка към асистент с дълга фраза, в която ще е необходимо да се подчертаят значими фрази, чрез които програмата ще определи същността на заявката. Отделна задача е да се проектира офтопичен скрипт, за който няма готов скрипт. Клиентът може да попита всичко. Това, което прави робот човек е променливостта на отговорите, когато отговаря на един и същ въпрос по различни начини.
Един от проблемите в развитието на гласаинтерфейс - откриваемост: как да разберете какво може да прави асистентът и с какво може да помогне? Тук е необходимо действа проактивно - гласови умения и способности и насочва потребителя през сценария, като предлага по-нататъшни стъпки, помага му в задънени клонове, когато попадне в „обработка на неразпознати заявки“. Можете също така да говорите за способностите на асистента извън самия асистент: в реклама, поща и използване на други маркетингови инструменти.
Гласовият асистент не само трябва да носиполза, но и да бъдете интересен събеседник. Разработчиците винаги се опитват да вложат колкото е възможно повече в „мозъка“ на Brand Voice, придавайки му характер и индивидуалност.
Ученето е непрекъснат процес
Развитието на гласовия модел не спира и след товавъвеждането му в експлоатация. След шест месеца работа качеството на модела се подобрява и след година се развива до неузнаваемост. Ако клиентът е разрешил регистриране, тоест записване на информация за събития по време на работата на гласовия асистент, тогава всички данни за грешки се събират и използват за повторно обучение на модела. Може да се наложи регистриране, когато асистентът не може да разпознае конкретни думи и фрази или прави грешки в произношението им, например в имената на лекарства или в асортимента на услуга за доставка.
Създаването на Brand Voice обикновено се извършва в облакасреда и изисква използването на лични данни, което често поражда опасения за сигурността сред клиентите. И въпреки че недоверието към облаците е остарял стереотип, ако за клиента е важно данните да не излизат извън периметъра на компанията, тяхната обработка може да се извършва строго в рамките на ИТ веригата на организацията. Личните данни се използват и при регистриране, за да се гарантира тяхната конфиденциалност, данните са анонимни.
Създаване на нови работни сценарии и допълнително обучениемодели за Brand Voice е непрекъснат процес. Всъщност, поръчвайки готово гласово решение, клиентът получава услуга, която непрекъснато се подобрява. Един наистина висококачествен гласов асистент може не само да забележи персонала на цял кол център, но и да се превърне в ярък акцент, който добавя индивидуалност към имиджа на компанията.
Прочетете още
Ноевият ковчег на Илон Мъск ще отведе един милион души на Марс
Астрономи от Япония откриха неизвестна структура в галактиката
Сабля с неизвестен произход намерена в Гърция. Учените са озадачени от странен артефакт