Schlaue „Redner“
Sprache ist ein natürliches Werkzeug für die Kommunikation.Probleme verbal zu lösen, anstatt
Sprachtechnologien werden in vielen Bereichen eingesetzt,und sie sind für jedes Publikum geeignet: Kinder werden von einem interaktiven „Talker“ angezogen, Jugendliche schätzen die Sprachsteuerung von Smart Devices und ein Assistent liest älteren Menschen die Nachrichten vor. Sprachassistenten sind jedoch in den Branchen am gefragtesten, in denen es viele Punktkommunikationen mit Kunden gibt – im Finanzwesen, im Einzelhandel und in der Telekommunikation.
„Voice-Technologien werden in vielen Bereichen eingesetzt“
Große Unternehmen nutzen SpracheTechnologie ist nicht das erste Jahr. Seit 2017 betreibt die Bank of America Erica, eine virtuelle Assistentin. Seit 2018 führt Mercedes-Benz einen Digital User Experience (MBUX)-Komplex ein, der Sprachbefehle versteht. Der Einzelhändler Walmart hat mit dem Sprachassistenten Ask Sam eine Anwendung auf den Markt gebracht, die Kunden bei der Produktsuche unterstützt. Laut Adobe Analytics investieren 91 % der Marken bereits stark in Sprachlösungen und planen, die Investitionen zu erhöhen. Der russische Sprach-KI-Markt wird in den nächsten fünf Jahren von 38 % auf 81 % wachsen und 2025 561 Millionen US-Dollar erreichen, prognostiziert Just AI.
Ich glaube - ich glaube nicht
Unternehmen bewerten die Wirksamkeit der UmsetzungSprachtechnologien mit Fokus auf Kundenzufriedenheit und Markentreue. Doch viele Kunden sehen Innovationen mit verhaltener Begeisterung entgegen. Laut Voicebot.ai wollen nur 45 % der Nutzer Sprachassistenten in mobilen Anwendungen sehen. Hauptgründe für Dislike sind laut Neuro.net die schlechte Qualität der Antworten und die synthetische Sprache der Sprachassistenten. Diese Probleme sind typisch für Schnittstellen, die auf Technologien der vergangenen Generation aufbauen. Moderne maschinelle Lernalgorithmen ermöglichen es, Stimmen ohne Seelenlosigkeit zu synthetisieren.
Ein weiterer limitierender Faktor ist dasSprachtechnologien haben sich sowohl in „guten“ Szenarien aus Kundensicht als auch in „schlechten“ Szenarien durchgesetzt. Es gibt noch nicht so viele Unternehmen auf dem Markt, die sich auf die Entwicklung von Sprachschnittstellen spezialisiert haben, und die Anzahl der Stimmen, die sie anbieten können, ist begrenzt. Es stellt sich heraus, dass, wenn heute eine Person durch Werbung oder betrügerische Anrufe belästigt wird und morgen ein nützlicher Anruf ertönt, die Kommunikation nicht erfolgreich sein wird, denn "alle Roboter haben eine Stimme". Ist die Reputation des Sprachassistenten geschädigt, sinkt die Effektivität der für den Kunden nützlichen Anrufe auf null. Daher entsteht Brand Voice – eine einzigartige Markenstimme.
„Eine einzigartige Stimme ist ein wichtiger Bestandteil einer Marke, daLogo oder Firmenschrift. Immer mehr unserer Kunden nutzen diese Funktion und interagieren mit Kunden in einzigartigen Stimmen. Wir nehmen eine Reihe von Phrasen mit einer bestimmten Intonation in der Stimme eines Mitarbeiters des Unternehmens oder eines Ansagers auf. Und zahlreiche dynamische Daten – Telefonnummern oder Adressen – generiert das selbstlernende System automatisch, reproduziert die Stimme des Mitarbeiters und behält realistische Intonationen bei. So automatisieren Unternehmen die Kommunikation, halten aber die Kundenbindung und steigern die Konversion: Die Menschen freuen sich, wenn sie mit lebhafter Stimme angesprochen werden, und sie sind bereit, einen Dialog zu führen.“
Ivan Artemiev, MTT-Produktdirektor
Modell sprechen
Die Kosten für die fertige Brand Voice beginnen bei 150Tausend Rubel und hängt vom Umfang und der Komplexität des Sprachsynthesemodells ab. Der Prozess der Erstellung einer Lösung besteht aus zwei Teilen – dem technischen und dem logischen, die jeweils in der Verantwortung eines separaten Produktteams liegen.
Ein wichtiger Schritt in diesem Teil ist die Wahl der Stimme, weiterauf denen Sprache synthetisiert wird. Die Stimme sollte jene Markenattribute intonatorisch widerspiegeln, die dem Unternehmen wichtig sind zu fördern. Ein professioneller Sprecher oder Synchronsprecher muss bis zu 40 Stunden Sprachkonstruktionen unter der Aufnahme sprechen. Die Aufnahme sollte von hoher Qualität sein, ohne unnötigen Lärm, und die Aussprache sollte korrekt sein, da das Sprachrobotermodell auf diesem Material trainiert wird.
Um das Modell zu trainieren und ein vollwertiges zu implementierenDie Synthese dauert je nach Komplexität zwischen einem Monat und sechs Monaten. Aber die Technologie schreitet voran und die Aufnahmezeit im Studio nimmt allmählich ab. Es ist möglich, dass es in Zukunft möglich sein wird, einen guten Sprachroboter mit nur 2-3 Stunden des Originaltons zu bekommen.
„Die Kosten für eine fertige Brand Voice beginnen bei 150.000 Rubel“
Künstliche Intelligenz lernen
Wenn die Aufnahme fertig ist, beginnt das TrainingSprachmodell. Sie verarbeitet das aufgenommene Material, lernt, ihre Stimme wiederzugeben und ist dadurch in der Lage, Sprache aus beliebigem Text zu synthetisieren.
Um diese Klasse von Problemen zu lösen,Transformers ist eine tiefe neuronale Netzwerkarchitektur, die 2017 von Google Brain-Forschern eingeführt wurde. Die bekanntesten Transformer sind die neuronalen Netze GPT (Generative Pre-trained Transformer) der Non-Profit-Organisation OpenAI. Mit dieser Technologie können Sie beispielsweise eine Lücke am genauesten füllen oder das nächste Wort in einem Satz basierend auf früheren Wörtern vorhersagen.
Nach diesem Prinzip entstehen Voice Brands.Sprachlösungen. Das trainierte Modell wird mit einer riesigen Datenmenge ausgeführt - mehrere Modelle werden mit unterschiedlichen Parametern gestartet und das beste wird am Ausgang ausgewählt. Es ist wichtig, dass der Roboter den Text korrekt in Sprache „übersetzt“, keine Fehler in Aussprache und Intonation macht. Um die Qualität der Synthese zu verbessern, wird das Modell für bestimmte Anwendungsfälle weiter trainiert, wodurch Sie die natürlichsten Stimmen erhalten.
Wo ist die Logik?
Der semantische Inhalt des Roboters, seine Geschäftslogik undin enger zusammenarbeit mit dem kunden entstehen szenarien der interaktion mit menschen. Damit ein Sprachassistent einem Unternehmen den größtmöglichen Nutzen bringt, müssen Sie ein gutes Verständnis dafür haben, wie dieses Unternehmen organisiert ist, mit welchen Fragen und in welchen Situationen der Kunde den Assistenten kontaktiert.
Fälle von Grund auf neu zu erfinden, ist eine schlechte Idee, LogikDie Interaktion mit dem Kunden muss echt sein. Wenn ein Assistent eine Person am Telefon trifft, basiert das Skript auf einem Beratungs-, Verkaufs- oder einem anderen Skript - einer Abfolge von Aktionen eines Call-Center-Mitarbeiters im Dialog mit einem Kunden. Bei der Erstellung eines Skripts für einen Sprachassistenten hilft es, die Anfragen echter Benutzer, Interviews mit Mitarbeitern, die regelmäßig mit ihnen kommunizieren, oder UX-Experimente zu analysieren, die darauf abzielen, die wirklichen Bedürfnisse der Menschen herauszufinden.
„Wenn ein Assistent eine Person am Telefon trifft, basiert das Drehbuch auf einem Beratungs-, Verkaufs- oder einem anderen Drehbuch.“
Viele Kunden versuchen zu sprechenDer Assistent half den Klienten bei der Lösung von Problemen, die sie alleine nur schwer bewältigen konnten. Dem Roboter ausgeliefert ist es zum Beispiel besser, Funktionen zu übertragen, die „tief“ verborgen oder nicht offensichtlich sind, wenn man in einer mobilen Anwendung arbeitet.
Irina Stepanova, Conversational Interface Designerin und Analystin bei Just AI:„Sie müssen verstehen, dass es in verschiedenen Kanälen einen Chat gibt,Anwendung, Telefon - der Client verhält sich anders. Daher müssen Sie zunächst die Customer Journey Map in den Kanälen, in denen Sie einen Sprachassistenten implementieren möchten, sorgfältig studieren. In der visuellen Oberfläche hat der Kunde weniger Möglichkeiten, Fehler zu machen – fast alles, was der Service zu bieten hat, ist vor seinen Augen. In der Sprachschnittstelle spürt der Benutzer die Einschränkungen des Dienstes nicht so gut, und es muss dafür gesorgt werden, dass eine Person eine Anfrage an den Assistenten mit einem langen Satz richten kann, in dem es notwendig ist, wichtige Sätze hervorzuheben die das Programm das Wesen der Anfrage bestimmen wird. Eine separate Aufgabe besteht darin, ein Offtopic-Skript zu entwerfen, für das es kein fertiges Skript gibt. Der Kunde kann alles fragen. Was einen Roboter zum Menschen macht, ist die Variabilität der Antworten, wenn er dieselbe Frage auf unterschiedliche Weise beantwortet.“
Eine der Herausforderungen bei der Gestaltung einer Sprachschnittstelle ist die Auffindbarkeit: Wie kann man die Geschichte erzählen, die der AssistentKönnen Sie dabei helfen?Hier müssen Sie proaktiv handeln – Sprachfähigkeiten und -fähigkeiten und den Benutzer durch das Szenario führen, weitere Schritte vorschlagen und ihm in Sackgassen helfen, wenn erSie können auch außerhalb des Assistenten selbst über die Fähigkeiten des Assistenten sprechen: in der Werbung, in Mailings und mit Hilfe anderer Marketinginstrumente.
Der Sprachassistent soll nicht nur bringenprofitieren, sondern auch ein interessanter Gesprächspartner sein. Die Entwickler versuchen immer, so viel wie möglich in das „Gehirn“ von Brand Voice zu stecken, ihm Charakter und Persönlichkeit zu verleihen.
Lernen ist ein kontinuierlicher Prozess
Die Entwicklung des Stimmmodells hört auch danach nicht aufseine Inbetriebnahme. Nach sechs Monaten Arbeit verbessert sich die Qualität des Modells und nach einem Jahr entwickelt es sich bis zur Unkenntlichkeit. Hat der Client das Logging erlaubt, also das Aufzeichnen von Informationen über Ereignisse während des Betriebs des Sprachassistenten, dann werden alle Fehlerdaten gesammelt und zum Nachtrainieren des Modells verwendet. Eine Protokollierung kann erforderlich sein, wenn der Assistent bestimmte Wörter und Sätze nicht erkennen kann oder Fehler in der Aussprache macht, beispielsweise bei Namen von Medikamenten oder im Sortiment eines Lieferservices.
Die Erstellung einer Markenstimme findet normalerweise in der Cloud stattUmgebung und erfordert die Verwendung personenbezogener Daten, was bei Kunden häufig Sicherheitsbedenken aufwirft. Und obwohl das Misstrauen gegenüber den Clouds ein veraltetes Stereotyp ist, können sie, wenn es für den Kunden wichtig ist, dass die Daten nicht über die Grenzen des Unternehmens hinausgehen, streng innerhalb des IT-Kreislaufs der Organisation verarbeitet werden. Bei der Protokollierung werden auch personenbezogene Daten verwendet, um deren Vertraulichkeit zu gewährleisten, werden die Daten anonymisiert.
Erstellung neuer Arbeitsszenarien und ZusatzschulungenModelle für Brand Voice ist ein fortlaufender Prozess. Tatsächlich erhält der Kunde durch die Bestellung einer fertigen Sprachlösung einen Service, der ständig verbessert wird. Ein wirklich hochwertiger Sprachassistent kann nicht nur die Mitarbeiter eines ganzen Callcenters wahrnehmen, sondern auch zu einem leuchtenden Akzent werden, der dem Image des Unternehmens Individualität verleiht.
weiter lesen
Elon Musks Arche Noah wird eine Million Menschen zum Mars bringen
Astronomen aus Japan haben eine unbekannte Struktur in der Galaxie gefunden
Säbel unbekannter Herkunft in Griechenland gefunden. Wissenschaftler rätseln über ein seltsames Artefakt