Inteligentni „mówcy”
Głos jest naturalnym narzędziem komunikacji. Wiele osób woli rozwiązywać problemy werbalnie niż za pomocą słów
Technologie głosowe są wykorzystywane w wielu obszarach,i są odpowiednie dla każdej publiczności: dzieci przyciąga interaktywny „mówca”, młodzież docenia sterowanie głosem inteligentnych urządzeń, a asystent czyta wiadomości starszym. Jednak asystenci głosowi są najbardziej poszukiwani w tych branżach, w których istnieje wiele punktów komunikacji z klientami – w finansach, handlu detalicznym i telekomunikacji.
„Technologie głosowe są wykorzystywane w wielu obszarach”
Duże firmy używają głosutechnologia nie jest pierwszym rokiem. Od 2017 roku Bank of America prowadzi wirtualną asystentkę Erica. Od 2018 roku Mercedes-Benz wprowadza kompleks Digital User Experience (MBUX), który rozumie polecenia głosowe. Sprzedawca Walmart uruchomił aplikację z asystentem głosowym Ask Sam, która pomaga klientom w wyszukiwaniu produktów. Według Adobe Analytics 91% marek już dużo inwestuje w rozwiązania głosowe i planuje zwiększyć inwestycje. Według prognoz Just AI rosyjski rynek sztucznej inteligencji do mowy wzrośnie z 38% do 81% w ciągu najbliższych pięciu lat i osiągnie 561 milionów dolarów w 2025 roku.
Wierzę - nie wierzę
Biznes ocenia skuteczność wdrożeniatechnologie głosowe, koncentrując się na satysfakcji klienta i lojalności wobec marki. Jednak wielu klientów patrzy na innowacje z powściągliwym entuzjazmem. Według Voicebot.ai tylko 45% użytkowników chce widzieć asystentów głosowych w aplikacjach mobilnych. Według Neuro.net głównymi przyczynami niechęci są słaba jakość odpowiedzi i syntetyczna mowa asystentów głosowych. Problemy te są typowe dla interfejsów zbudowanych na technologiach poprzedniej generacji. Nowoczesne algorytmy uczenia maszynowego umożliwiają syntezę głosów pozbawionych bezduszności.
Innym czynnikiem ograniczającym jest to, żetechnologie głosowe upowszechniły się zarówno w scenariuszach „dobrych” z punktu widzenia klienta, jak i „złych”. Na rynku jest jeszcze niewiele firm specjalizujących się w rozwoju interfejsów głosowych, a liczba głosów, które mogą zaoferować jest ograniczona. Okazuje się, że jeśli dziś komuś przeszkadza reklama lub oszukańcze telefony, a jutro zadzwoni pożyteczny telefon, to komunikacja się nie powiedzie, bo „wszystkie roboty mają jeden głos”. Jeśli reputacja asystenta głosowego zostanie nadszarpnięta, skuteczność rozmów przydatnych dla klienta spada do zera. Dlatego powstaje Brand Voice – niepowtarzalny głos marki.
„Unikalny głos to ważna część marki, ponieważlogo lub czcionka firmowa. Coraz więcej naszych klientów korzysta z tej funkcji i nawiązuje kontakt z klientami wyjątkowymi głosami. Nagrywamy zestaw fraz z określoną intonacją w głosie pracownika firmy lub spikera. A liczne dynamiczne dane - numery telefonów czy adresy - system samouczący się automatycznie generuje, odtwarzając głos pracownika i zachowując realistyczne intonacje. W ten sposób firmy automatyzują komunikację, ale zachowują lojalność klientów i zwiększają konwersję: ludzie są zadowoleni, że rozmawia się z nimi żywym głosem i są chętni do prowadzenia dialogu”.
Ivan Artemiev, dyrektor produktu MTT
Mów modelkę
Koszt gotowego Brand Voice zaczyna się od 150tysięcy rubli i zależy od zakresu i złożoności modelu syntezy głosu. Proces tworzenia rozwiązania składa się z dwóch części - technicznej i logicznej, za każdą odpowiada osobny zespół produktowy.
Ważnym krokiem w tej części jest wybór głosu, onna którym mowa będzie syntezowana. Głos powinien w sposób intonacyjny odzwierciedlać te atrybuty marki, które firma powinna promować. Profesjonalny spiker lub aktor dubbingowy będzie musiał wygłosić do 40 godzin konstrukcji językowych pod nagraniem. Nagranie powinno być wysokiej jakości, bez zbędnych szumów, a wymowa poprawna, ponieważ model robota głosowego będzie szkolony na tym materiale.
Aby wyszkolić model i wdrożyć pełnoprawnysynteza trwa od miesiąca do sześciu miesięcy, w zależności od złożoności. Ale technologia się rozwija, a czas nagrywania w studiu stopniowo się zmniejsza. Możliwe, że w przyszłości uda się uzyskać dobrego robota głosowego wykorzystującego tylko 2-3 godziny oryginalnego dźwięku.
„Koszt gotowego Brand Voice zaczyna się od 150 000 rubli”
Nauka sztucznej inteligencji
Gdy nagranie jest gotowe, rozpoczyna się treningmodel głosu. Przetwarza nagrany materiał, uczy się odtwarzać swój głos, dzięki czemu potrafi syntetyzować mowę z dowolnego tekstu.
Aby rozwiązać tę klasę problemów,Transformers to głęboka architektura sieci neuronowej wprowadzona w 2017 roku przez badaczy Google Brain. Najbardziej znanymi transformatorami są sieci neuronowe GPT (Generative Pre-trained Transformer) organizacji non-profit OpenAI. Ta technologia pozwala na przykład najdokładniej wypełnić lukę lub przewidzieć następne słowo we frazie na podstawie poprzednich słów.
Zgodnie z tą zasadą tworzone są Marki głosowe.Rozwiązania głosowe. Wytrenowany model jest uruchamiany na ogromnej ilości danych - kilka modeli jest uruchamianych z różnymi parametrami, a na wyjściu wybierany jest najlepszy. Ważne jest, aby robot poprawnie „przetłumaczył” tekst na głos, nie popełniał błędów w wymowie i intonacji. Aby poprawić jakość syntezy, model jest dalej szkolony pod kątem konkretnych przypadków użycia, co pozwala uzyskać najbardziej naturalnie brzmiące głosy.
Gdzie jest logika?
Treść semantyczna robota, jego logika biznesowa iscenariusze interakcji z ludźmi tworzone są w ścisłej współpracy z klientem. Aby asystent głosowy przyniósł maksymalne korzyści firmie, musisz dobrze rozumieć, jak jest zorganizowany ten biznes, z jakimi pytaniami i w jakich sytuacjach klient skontaktuje się z asystentem.
Wymyślanie przypadków od podstaw to zły pomysł, logikaInterakcja z klientem musi być realna. Jeśli asystent spotka się z osobą na linii telefonicznej, to skrypt opiera się na skrypcie konsultingowym, sprzedażowym lub innym - sekwencji działań pracownika call center w dialogu z klientem. Przygotowując skrypt dla asystenta głosowego pomaga analizować prośby prawdziwych użytkowników, wywiady z pracownikami, którzy regularnie się z nimi komunikują, czy eksperymenty UX mające na celu poznanie rzeczywistych potrzeb ludzi.
„Jeżeli asystent spotyka osobę na linii telefonicznej, to scenariusz opiera się na konsultingu, sprzedaży lub innym skrypcie”
Wielu klientów próbuje udzielić głosuasystent pomagał klientom w rozwiązywaniu problemów, z którymi samodzielnie sobie radzili. Na przykład na łasce robota lepiej przenosić funkcje, które są „głęboko” ukryte lub nieoczywiste podczas pracy w aplikacji mobilnej.
Irina Stepanova, projektantka-analityczka interfejsów konwersacyjnych w Just AI:„Musisz zrozumieć, że w różnych kanałach jest czat,aplikacja, telefon - klient zachowuje się inaczej. Dlatego przede wszystkim musisz dokładnie przestudiować mapę podróży klienta w tych kanałach, w których planujesz wdrożyć asystenta głosowego. W interfejsie wizualnym klient ma mniej możliwości popełnienia błędu – prawie wszystko, co ma do zaoferowania usługa, jest przed jego oczami. W interfejsie głosowym użytkownik nie odczuwa tak dobrze ograniczeń usługi i konieczne jest zapewnienie, aby osoba mogła zgłosić prośbę do asystenta długą frazą, w której konieczne będzie podkreślenie istotnych fraz, którymi program określi istotę żądania. Odrębnym zadaniem jest zaprojektowanie skryptu offtopic, dla którego nie ma gotowego skryptu. Klient może zapytać o wszystko. To, co czyni robota człowiekiem, to zmienność odpowiedzi, gdy odpowiada na to samo pytanie na różne sposoby”.
Jeden z problemów w rozwoju głosuinterfejs - wykrywalność: jak powiedzieć, co asystent może zrobić i w czym może pomóc? Tutaj jest to konieczne działaj proaktywnie – wyrażaj umiejętności i możliwości oraz prowadź użytkownika przez scenariusz, sugerując dalsze kroki, pomagaj mu w ślepych zaułkach, gdy wchodzi w „przetwarzanie nierozpoznanych żądań”. O możliwościach asystenta można mówić także poza nim samym: w reklamie, mailingach i korzystaniu z innych narzędzi marketingowych.
Asystent głosowy powinien nie tylko przynosićkorzyści, ale także bądź ciekawym rozmówcą. Twórcy zawsze starają się włożyć jak najwięcej do „mózgu” Brand Voice, nadając mu charakter i osobowość.
Nauka to ciągły proces
Rozwój modelu głosu nie kończy się nawet pojego uruchomienie. Po sześciu miesiącach pracy jakość modelu poprawia się, a po roku rozwija się nie do poznania. Jeżeli klient zezwolił na logowanie, czyli rejestrowanie informacji o zdarzeniach podczas pracy asystenta głosowego, to wszystkie dane o błędach są zbierane i wykorzystywane do ponownego uczenia modelu. Logowanie może być wymagane, gdy asystent nie może rozpoznać określonych słów i wyrażeń lub popełnia błędy w ich wymowie, na przykład w nazwach leków lub w asortymencie usługi dostawy.
Tworzenie Brand Voice zwykle odbywa się w chmurześrodowiska i wymaga użycia danych osobowych, co często budzi wśród klientów obawy dotyczące bezpieczeństwa. I choć nieufność do chmur jest przestarzałym stereotypem, to jeśli dla klienta ważne jest, aby dane nie wychodziły poza obręb firmy, można je przetwarzać stricte w obwodach IT organizacji. Dane osobowe są również wykorzystywane podczas logowania, aby zapewnić ich poufność, dane są anonimizowane.
Tworzenie nowych scenariuszy pracy i dodatkowych szkoleńmodele dla Brand Voice to proces ciągły. W rzeczywistości zamawiając gotowe rozwiązanie głosowe, klient otrzymuje usługę, która jest stale ulepszana. Prawdziwie wysokiej jakości asystent głosowy potrafi nie tylko dostrzec personel całego call center, ale także stać się jasnym akcentem, który doda indywidualności wizerunkowi firmy.
Czytaj więcej
Arka Noego Elona Muska zabierze milion ludzi na Marsa
Astronomowie z Japonii odkryli w galaktyce nieznaną strukturę
Szabla nieznanego pochodzenia znaleziona w Grecji. Naukowcy zdziwieni dziwnym artefaktem