Smarte "snakkere"
Stemmen er et naturlig verktøy for kommunikasjon.løse problemer muntlig i stedet for
Stemmeteknologier brukes på mange områder,og de passer for ethvert publikum: barn tiltrekkes av en interaktiv "snakker", unge mennesker setter pris på stemmekontrollen til smarte enheter, og en assistent leser nyhetene for de eldre. Men stemmeassistenter er mest etterspurt i de bransjene der det er mange punktkommunikasjoner med kunder – innen finans, detaljhandel og telekom.
"Stemmeteknologier brukes på mange områder"
Store selskaper bruker stemmeteknologi er ikke det første året. Siden 2017 har Bank of America drevet Erica, en virtuell assistent. Siden 2018 har Mercedes-Benz introdusert et digitalt brukeropplevelseskompleks (MBUX) som forstår talekommandoer. Forhandler Walmart har lansert en applikasjon med taleassistenten Ask Sam, som hjelper kunder med produktsøk. I følge Adobe Analytics investerer 91 % av merkene allerede tungt i taleløsninger og planlegger å øke investeringene. Det russiske tale-AI-markedet vil vokse fra 38 % til 81 % i løpet av de neste fem årene og nå 561 millioner dollar i 2025, spår Just AI.
Jeg tror - jeg tror ikke
Virksomheten vurderer effektiviteten av implementeringenstemmeteknologier, med fokus på kundetilfredshet og merkelojalitet. Men mange kunder ser på innovasjon med behersket entusiasme. Ifølge Voicebot.ai vil bare 45 % av brukerne se taleassistenter i mobilapplikasjoner. Hovedårsakene til misliker, ifølge Neuro.net, er den dårlige kvaliteten på svarene og den syntetiske talen til stemmeassistenter. Disse problemene er typiske for grensesnitt bygget på teknologier fra forrige generasjon. Moderne maskinlæringsalgoritmer gjør det mulig å syntetisere stemmer blottet for sjelløshet.
En annen begrensende faktor er detstemmeteknologier har blitt utbredt både i "gode" scenarier fra klientens synspunkt, og i "dårlige". Det er ikke så mange selskaper som spesialiserer seg på utvikling av talegrensesnitt på markedet ennå, og antallet stemmer de kan tilby er begrenset. Det viser seg at hvis en person i dag er plaget av reklame eller uredelige samtaler, og i morgen en nyttig samtale ringer ut, vil kommunikasjonen ikke lykkes, fordi "alle roboter har én stemme." Hvis omdømmet til stemmeassistenten blir skadet, synker effektiviteten av samtaler som er nyttige for klienten til null. Derfor skapes Brand Voice – en unik merkestemme.
«En unik stemme er en viktig del av en merkevare, somlogo eller bedriftsskrift. Flere og flere av våre kunder bruker denne funksjonen og engasjerer seg med kunder med unike stemmer. Vi spiller inn et sett med fraser med en viss intonasjon i stemmen til en bedriftsansatt eller en kunngjøring. Og tallrike dynamiske data - telefonnumre eller adresser - genererer det selvlærende systemet automatisk, reproduserer den ansattes stemme og opprettholder realistiske intonasjoner. Dette er hvordan bedrifter automatiserer kommunikasjon, men beholder kundelojalitet og øker konverteringen: folk er glade for at de blir snakket til med en livlig stemme, og de er villige til å føre en dialog.»
Ivan Artemiev, MTT-produktdirektør
Snakk modell
Kostnaden for den ferdige Brand Voice starter fra 150,-tusen rubler og avhenger av omfanget og kompleksiteten til stemmesyntesemodellen. Prosessen med å lage en løsning består av to deler - teknisk og logisk, hver er et eget produktteams ansvar.
Et viktig steg i denne delen er valg av stemme, påsom tale skal syntetiseres på. Stemmen bør innasjonalt reflektere de merkevareattributtene som det er viktig for selskapet å fremme. En profesjonell kunngjører eller dubbing skuespiller må snakke opptil 40 timer med språkkonstruksjoner under opptaket. Opptaket skal være av høy kvalitet, uten unødvendig støy, og uttalen skal være korrekt, fordi stemmerobotmodellen vil bli trent på dette materialet.
Å trene modellen og implementere en fullverdigsyntese tar fra en måned til seks måneder, avhengig av kompleksiteten. Men teknologien går fremover, og opptakstiden i studio går gradvis ned. Det er mulig at det i fremtiden vil være mulig å få en god stemmerobot ved å bruke kun 2-3 timer av originallyden.
"Kostnaden for en ferdig Brand Voice starter fra 150 000 rubler"
Lære kunstig intelligens
Når opptaket er klart starter treningenstemmemodell. Hun behandler det innspilte materialet, lærer å reprodusere stemmen sin, og som et resultat er hun i stand til å syntetisere tale fra enhver vilkårlig tekst.
For å løse denne klassen av problemer,Transformers er en dyp nevrale nettverksarkitektur introdusert i 2017 av Google Brain-forskere. De mest kjente transformatorene er GPT (Generative Pre-trained Transformer) nevrale nettverk til den ideelle organisasjonen OpenAI. Denne teknologien lar deg for eksempel fylle ut et tomrom nøyaktig eller forutsi neste ord i en frase basert på tidligere ord.
I henhold til dette prinsippet opprettes stemmemerker.Stemmeløsninger. Den trente modellen kjøres på en enorm mengde data - flere modeller lanseres med forskjellige parametere og den beste velges ved utgangen. Det er viktig at roboten riktig "oversetter" teksten til stemme, ikke gjør feil i uttale og intonasjon. For å forbedre syntesekvaliteten er modellen videreutdannet for spesifikke brukstilfeller, noe som lar deg få de mest naturlig klingende stemmene.
Hvor er logikken?
Det semantiske innholdet i roboten, dens forretningslogikk ogscenarier for interaksjon med mennesker skapes i nært samarbeid med kunden. For at en stemmeassistent skal gi maksimal nytte for en virksomhet, må du ha en god forståelse av hvordan denne virksomheten er organisert, med hvilke spørsmål og i hvilke situasjoner klienten vil kontakte assistenten.
Å finne opp saker fra bunnen av er en dårlig idé, logikkSamhandlingen med klienten må være reell. Hvis en assistent møter en person på telefonlinjen, er manuset basert på et konsulent-, salgs- eller et annet manus - en handlingssekvens fra en callsenteransatt i dialog med en klient. Når du forbereder et manus for en stemmeassistent, hjelper det å analysere forespørslene fra ekte brukere, intervjuer med ansatte som kommuniserer med dem regelmessig, eller UX-eksperimenter rettet mot å finne ut de virkelige behovene til folk.
"Hvis en assistent møter en person på telefonlinjen, er manuset basert på et konsulent-, salgs- eller annet manus"
Mange kunder prøver å stemmeassistenten hjalp klienter med å løse problemer som er vanskelige for dem å håndtere på egen hånd. For eksempel, på robotens nåde er det bedre å overføre funksjoner som er "dypt" skjult eller ikke åpenbare når du arbeider i en mobilapplikasjon.
Irina Stepanova, samtalegrensesnittdesigner og analytiker hos Just AI:"Du må forstå at det er en chat i forskjellige kanaler,applikasjon, telefon - klienten oppfører seg annerledes. Derfor må du først og fremst studere kundereisekartet nøye i de kanalene der du planlegger å implementere en stemmeassistent. I det visuelle grensesnittet har klienten færre måter å gjøre feil på – nesten alt tjenesten har å tilby er foran øynene hans. I stemmegrensesnittet føler ikke brukeren begrensningene til tjenesten så godt, og det er nødvendig å sørge for at en person kan stemme en forespørsel til en assistent med en lang setning der det vil være nødvendig å fremheve viktige setninger som programmet vil avgjøre essensen av forespørselen. En egen oppgave er å designe et offtopic script som det ikke finnes ferdig script for. Kunden kan spørre hva som helst. Det som gjør en robot til menneske, er variasjonen av svar, når den svarer på det samme spørsmålet på forskjellige måter."
En av utfordringene med å designe et stemmegrensesnitt er oppdagbarhet: hvordan fortelle historien som assistentenKan du hjelpe med det?Her må du handle proaktivt - stemmeferdigheter og evner og lede brukeren gjennom scenariet, foreslå ytterligere trinn, hjelpe ham i blindveier når han fårDu kan også snakke om assistentens evner utenfor assistenten selv: i reklame, utsendelser og ved hjelp av andre markedsføringsverktøy.
Stemmeassistenten skal ikke bare ta mednytte, men også være en interessant samtalepartner. Utviklerne prøver alltid å legge så mye som mulig inn i "hjernen" til Brand Voice, og gi den karakter og personlighet.
Læring er en kontinuerlig prosess
Utviklingen av stemmemodellen stopper ikke selv etterdens igangkjøring. Etter seks måneders arbeid forbedres kvaliteten på modellen, og etter et år utvikler den seg til det ugjenkjennelige. Hvis klienten har tillatt logging, det vil si å registrere informasjon om hendelser under driften av taleassistenten, samles alle feildata inn og brukes til å omskolere modellen. Logging kan være nødvendig når assistenten ikke kan gjenkjenne spesifikke ord og uttrykk eller gjør feil i uttalen, for eksempel i navn på medisiner eller i sortimentet til en leveringstjeneste.
Oppretting av en merkevarestemme foregår vanligvis i skyenmiljø og krever bruk av personopplysninger, noe som ofte vekker sikkerhetsbekymringer blant kunder. Og selv om mistillit til skyene er en utdatert stereotypi, kan de behandles strengt innenfor organisasjonens IT-krets hvis det er viktig for klienten at dataene ikke går utover selskapets perimeter. Personopplysninger brukes også under logging, for å sikre konfidensialitet, blir dataene anonymisert.
Oppretting av nye arbeidsscenarier og tilleggsopplæringmodeller for Brand Voice er en pågående prosess. Faktisk, ved å bestille en ferdig taleløsning, får klienten en tjeneste som hele tiden forbedres. En stemmeassistent av høy kvalitet kan ikke bare legge merke til personalet på et helt kundesenter, men også bli en lys aksent som gir individualitet til selskapets image.
Les mer
Elon Musks Noahs ark vil ta én million mennesker til Mars
Astronomer fra Japan har funnet en ukjent struktur i galaksen
Sabel av ukjent opprinnelse funnet i Hellas. Forskere undret seg over en merkelig gjenstand