Slimme "praters"
De stem is een natuurlijk communicatiemiddel. Veel mensen willen problemen liever mondeling oplossen
Spraaktechnologieën worden op veel gebieden gebruikt,en ze zijn geschikt voor elk publiek: kinderen worden aangetrokken door een interactieve "prater", jongeren waarderen de spraakbesturing van slimme apparaten en een assistent leest het nieuws voor aan ouderen. Maar spraakassistenten zijn het meest gevraagd in die sectoren waar er veel puntcommunicatie met klanten is - in de financiële wereld, de detailhandel en de telecom.
“Spraaktechnologieën worden op veel gebieden gebruikt”
Grote bedrijven gebruiken spraaktechnologie is niet het eerste jaar. Sinds 2017 runt Bank of America Erica, een virtuele assistent. Sinds 2018 introduceert Mercedes-Benz een digitaal User Experience (MBUX)-complex dat spraakopdrachten begrijpt. Retailer Walmart heeft een applicatie gelanceerd met de Ask Sam-stemassistent, die klanten helpt bij het zoeken naar producten. Volgens Adobe Analytics investeert 91% van de merken al zwaar in spraakoplossingen en zijn ze van plan de investeringen te verhogen. De Russische markt voor spraak-AI zal de komende vijf jaar groeien van 38 naar 81% en in 2025 het niveau van 561 miljoen dollar bereiken, voorspelt Just AI.
ik geloof - ik geloof niet
Bedrijven evalueren de effectiviteit van de implementatiespraaktechnologieën, gericht op klanttevredenheid en merkloyaliteit. Maar veel klanten kijken met ingehouden enthousiasme naar innovatie. Volgens Voicebot.ai wil slechts 45% van de gebruikers stemassistenten in mobiele applicaties zien. De belangrijkste redenen voor afkeer zijn volgens Neuro.net de slechte kwaliteit van de antwoorden en de synthetische spraak van stemassistenten. Deze problemen zijn typisch voor interfaces die zijn gebouwd op technologieën van de vorige generatie. Moderne algoritmen voor machine learning maken het mogelijk om stemmen te synthetiseren zonder zielloosheid.
Een andere beperkende factor is dat:spraaktechnologieën zijn wijdverbreid, zowel in "goede" scenario's vanuit het oogpunt van de klant, als in "slechte" scenario's. Er zijn nog niet zoveel bedrijven op de markt die gespecialiseerd zijn in de ontwikkeling van voice interfaces en het aantal stemmen dat ze kunnen aanbieden is beperkt. Het blijkt dat als iemand vandaag last heeft van reclame of frauduleuze oproepen, en morgen een nuttige oproep weerklinkt, de communicatie niet succesvol zal zijn, omdat "alle robots één stem hebben". Als de reputatie van de stemassistent wordt geschaad, daalt de effectiviteit van gesprekken die nuttig zijn voor de klant tot nul. Daarom wordt Brand Voice gecreëerd - een unieke merkstem.
“Een unieke stem is een belangrijk onderdeel van een merk,logo of bedrijfslettertype. Steeds meer van onze klanten gebruiken deze functie en communiceren met klanten met unieke stemmen. We nemen een reeks frases op met een bepaalde intonatie in de stem van een medewerker van het bedrijf of een omroeper. En tal van dynamische gegevens - telefoonnummers of adressen - genereert het zelflerende systeem automatisch, reproduceert de stem van de medewerker en behoudt realistische intonaties. Zo automatiseren bedrijven de communicatie, maar behouden ze de klantloyaliteit en verhogen ze de conversie: mensen zijn blij dat ze levendig worden aangesproken en gaan graag de dialoog aan.”
Ivan Artemiev, MTT Product Director
Spreek model
De kosten van de voltooide Brand Voice beginnen vanaf 150duizend roebel en hangt af van de reikwijdte en complexiteit van het spraaksynthesemodel. Het proces van het creëren van een oplossing bestaat uit twee delen - technisch en logisch, elk is de verantwoordelijkheid van een afzonderlijk productteam.
Een belangrijke stap in dit onderdeel is de stemkeuze, onwaarop spraak zal worden gesynthetiseerd. De stem moet een intonatie zijn van die merkattributen die belangrijk zijn voor het bedrijf om te promoten. Een professionele omroeper of nasynchronisatieacteur zal tot 40 uur taalconstructies onder de opname moeten spreken. De opname moet van hoge kwaliteit zijn, zonder onnodige ruis, en de uitspraak moet correct zijn, omdat het stemrobotmodel op dit materiaal wordt getraind.
Om het model te trainen en een volwaardigesynthese duurt van een maand tot zes maanden, afhankelijk van de complexiteit. Maar de technologie vordert en de opnametijd in de studio neemt geleidelijk af. Het is mogelijk dat het in de toekomst mogelijk zal zijn om een goede stemrobot te krijgen met slechts 2-3 uur van de originele audio.
"De kosten van een voltooide merkstem beginnen vanaf 150.000 roebel"
Kunstmatige intelligentie leren
Als de opname klaar is, begint de trainingstemmodel. Ze verwerkt het opgenomen materiaal, leert haar stem te reproduceren en als resultaat kan ze spraak synthetiseren uit elke willekeurige tekst.
Om deze klasse van problemen op te lossen,Transformers is een diepe neurale netwerkarchitectuur die in 2017 werd geïntroduceerd door Google Brain-onderzoekers. De bekendste transformatoren zijn de GPT (Generative Pre-trained Transformer) neurale netwerken van de non-profitorganisatie OpenAI. Met deze technologie kunt u bijvoorbeeld het meest nauwkeurig een leemte opvullen of het volgende woord in een zin voorspellen op basis van eerdere woorden.
Volgens dit principe worden voice Brands gecreëerd.Spraakoplossingen. Het getrainde model draait op een enorme hoeveelheid gegevens - er worden verschillende modellen gelanceerd met verschillende parameters en de beste wordt aan de uitgang geselecteerd. Het is belangrijk dat de robot de tekst correct "vertaalt" in stem, geen fouten maakt in uitspraak en intonatie. Om de kwaliteit van de synthese te verbeteren, is het model verder getraind voor specifieke gebruikssituaties, waardoor u de meest natuurlijk klinkende stemmen krijgt.
Waar is de logica?
De semantische inhoud van de robot, zijn bedrijfslogica enIn nauw overleg met de klant ontstaan scenario's van interactie met mensen. Om een spraakassistent maximaal te laten profiteren van een bedrijf, moet je goed begrijpen hoe dit bedrijf is georganiseerd, met welke vragen en in welke situaties de klant contact zal opnemen met de assistent.
Cases helemaal opnieuw bedenken is een slecht idee, logicaDe interactie met de cliënt moet echt zijn. Als een assistent een persoon aan de telefoonlijn ontmoet, dan is het script gebaseerd op een advies-, verkoop- of een ander script - een reeks handelingen van een callcentermedewerker in dialoog met een klant. Bij het voorbereiden van een script voor een stemassistent helpt het om de verzoeken van echte gebruikers te analyseren, interviews met medewerkers die regelmatig met hen communiceren, of UX-experimenten om de echte behoeften van mensen te achterhalen.
"Als een assistent een persoon aan de telefoonlijn ontmoet, dan is het script gebaseerd op een advies-, verkoop- of een ander script"
Veel klanten proberen te stemmende assistent hielp klanten bij het oplossen van problemen die ze moeilijk zelf kunnen oplossen. Overgeleverd aan de robot is het bijvoorbeeld beter om functies over te dragen die bij het werken in een mobiele applicatie “diep” verborgen of niet voor de hand liggend zijn.
Irina Stepanova, ontwerper-analist van conversatie-interfaces bij Just AI:“Je moet begrijpen dat er op verschillende kanalen een chat is,applicatie, telefoon - de klant gedraagt zich anders. Daarom moet u allereerst de customer journey-kaart zorgvuldig bestuderen in die kanalen waar u van plan bent een spraakassistent te implementeren. In de visuele interface heeft de klant minder mogelijkheden om een fout te maken - bijna alles wat de dienst te bieden heeft staat voor zijn ogen. In de spraakinterface voelt de gebruiker de beperkingen van de service niet zo goed, en het is noodzakelijk om ervoor te zorgen dat een persoon een verzoek aan een assistent kan uiten met een lange zin waarin het nodig zal zijn om belangrijke zinnen te markeren waarmee het programma bepaalt de essentie van de aanvraag. Een aparte taak is het ontwerpen van een offtopic script waarvoor geen kant-en-klaar script bestaat. De klant mag alles vragen. Wat een robot mens maakt, is de variabiliteit van antwoorden, wanneer hij dezelfde vraag op verschillende manieren beantwoordt.”
Een van de problemen bij het ontwikkelen van steminterface - vindbaarheid: hoe vertel je wat de assistent kan en waarmee hij kan helpen? Hier is het noodzakelijk handel proactief - stem vaardigheden en capaciteiten en begeleid de gebruiker door het scenario, stel verdere stappen voor, help hem in doodlopende takken wanneer hij in de "verwerking van niet-herkende verzoeken" terechtkomt. Je kunt ook praten over de capaciteiten van de assistent buiten de assistent zelf: in advertenties, mailings en het gebruik van andere marketingtools.
De stemassistent moet niet alleenvoordeel, maar ook een interessante gesprekspartner zijn. De ontwikkelaars proberen altijd zoveel mogelijk in het "brein" van Brand Voice te stoppen, waardoor het karakter en persoonlijkheid krijgt.
Leren is een continu proces
De ontwikkeling van het spraakmodel stopt zelfs daarna nietzijn inbedrijfstelling. Na zes maanden werk verbetert de kwaliteit van het model en na een jaar ontwikkelt het zich onherkenbaar. Als de client logging heeft toegestaan, dat wil zeggen het opnemen van informatie over gebeurtenissen tijdens de werking van de stemassistent, worden alle foutgegevens verzameld en gebruikt om het model opnieuw te trainen. Logging kan nodig zijn wanneer de assistent bepaalde woorden en zinsdelen niet kan herkennen of fouten maakt in de uitspraak, bijvoorbeeld in de namen van medicijnen of in het assortiment van een bezorgdienst.
Het creëren van een merkstem vindt meestal plaats in de cloudomgeving en vereist het gebruik van persoonlijke gegevens, wat vaak aanleiding geeft tot veiligheidsproblemen bij klanten. En hoewel wantrouwen jegens de clouds een achterhaald stereotype is, als het voor de klant belangrijk is dat de gegevens niet buiten de perimeter van het bedrijf komen, kunnen ze strikt binnen het IT-circuit van de organisatie worden verwerkt. Persoonlijke gegevens worden ook gebruikt tijdens het loggen, om hun vertrouwelijkheid te waarborgen, worden de gegevens geanonimiseerd.
Creëren van nieuwe werkscenario's en aanvullende trainingmodellen voor Brand Voice is een continu proces. Door een kant-en-klare spraakoplossing te bestellen, krijgt de klant namelijk een service die voortdurend wordt verbeterd. Een echt hoogwaardige spraakassistent kan niet alleen het personeel van een heel callcenter opmerken, maar ook een helder accent worden dat individualiteit toevoegt aan het imago van het bedrijf.
Lees verder
De Ark van Noach van Elon Musk brengt een miljoen mensen naar Mars
Astronomen uit Japan hebben een onbekende structuur in de melkweg gevonden
Sabel van onbekende oorsprong gevonden in Griekenland. Wetenschappers verbaasd over een vreemd artefact