"Habladores" inteligentes
La voz es una herramienta natural para la comunicación.Resuelva los problemas verbalmente en lugar de
Las tecnologías de voz se utilizan en muchas áreas,y son aptos para cualquier público: los niños se sienten atraídos por un “hablador” interactivo, los jóvenes aprecian el control por voz de los dispositivos inteligentes y un asistente lee las noticias a los mayores. Pero los asistentes de voz tienen una mayor demanda en aquellas industrias donde hay muchos puntos de comunicación con los clientes: en finanzas, comercio minorista y telecomunicaciones.
“Las tecnologías de voz se utilizan en muchas áreas”
Las principales empresas utilizan la vozLa tecnología no es el primer año. Desde 2017, Bank of America ha estado ejecutando Erica, un asistente virtual. Desde 2018, Mercedes-Benz ha introducido un complejo de experiencia de usuario digital (MBUX) que comprende los comandos de voz. El minorista Walmart ha lanzado una aplicación con el asistente de voz Ask Sam, que ayuda a los clientes con la búsqueda de productos. Según Adobe Analytics, el 91% de las marcas ya están invirtiendo fuertemente en soluciones de voz y planean aumentar la inversión. El mercado ruso de IA de voz crecerá del 38 % al 81 % en los próximos cinco años y alcanzará los 561 millones de dólares en 2025, predice Just AI.
yo creo - yo no creo
Las empresas evalúan la efectividad de la implementacióntecnologías de voz, enfocándose en la satisfacción del cliente y la lealtad a la marca. Pero muchos clientes ven la innovación con un entusiasmo moderado. Según Voicebot.ai, solo el 45% de los usuarios quieren ver asistentes de voz en las aplicaciones móviles. Los principales motivos de disgusto, según Neuro.net, son la mala calidad de las respuestas y el habla sintética de los asistentes de voz. Estos problemas son típicos de las interfaces basadas en tecnologías de la generación pasada. Los modernos algoritmos de aprendizaje automático permiten sintetizar voces desprovistas de alma.
Otro factor limitante es queLas tecnologías de voz se han generalizado tanto en escenarios "buenos" desde el punto de vista del cliente, como en "malos". Todavía no hay tantas empresas especializadas en el desarrollo de interfaces de voz en el mercado, y el número de voces que pueden ofrecer es limitado. Resulta que si hoy a una persona le molesta la publicidad o las llamadas fraudulentas, y mañana suena una llamada útil, la comunicación no será exitosa, porque "todos los robots tienen una sola voz". Si se daña la reputación del asistente de voz, la efectividad de las llamadas útiles para el cliente se reduce a cero. Por lo tanto, se crea Brand Voice: una voz de marca única.
“Una voz única es una parte importante de una marca, comologotipo o fuente corporativa. Cada vez más de nuestros clientes utilizan esta función y se relacionan con los clientes con voces únicas. Grabamos un conjunto de frases con cierta entonación en la voz de un empleado de la empresa o de un locutor. Y numerosos datos dinámicos -números de teléfono o direcciones- el sistema de autoaprendizaje los genera automáticamente, reproduciendo la voz del empleado y manteniendo entonaciones realistas. Así es como las empresas automatizan las comunicaciones, pero retienen la lealtad del cliente y aumentan la conversión: las personas están contentas de que les hablen con una voz animada y están dispuestas a entablar un diálogo”.
Ivan Artemiev, director de producto de MTT
hablar modelo
El costo de la voz de marca terminada comienza desde 150mil rublos y depende del alcance y la complejidad del modelo de síntesis de voz. El proceso de creación de una solución consta de dos partes: técnica y lógica, cada una de las cuales es responsabilidad de un equipo de producto independiente.
Un paso importante en esta parte es la elección de la voz, enen el que se sintetizará el habla. La voz debe reflejar con entonación aquellos atributos de la marca que es importante que la empresa promueva. Un locutor profesional o actor de doblaje deberá hablar hasta 40 horas de construcciones lingüísticas en la grabación. La grabación debe ser de alta calidad, sin ruidos innecesarios, y la pronunciación debe ser correcta, ya que el modelo de robot de voz será entrenado en este material.
Para entrenar el modelo e implementar un completola síntesis toma de un mes a seis meses, dependiendo de la complejidad. Pero la tecnología avanza y el tiempo de grabación en el estudio disminuye gradualmente. Es posible que en el futuro sea posible obtener un buen robot de voz usando solo 2-3 horas del audio original.
"El costo de una voz de marca terminada comienza desde 150,000 rublos"
Aprendiendo inteligencia artificial
Cuando la grabación está lista, comienza el entrenamiento.modelo de voz Ella procesa el material grabado, aprende a reproducir su voz y, como resultado, puede sintetizar el habla de cualquier texto arbitrario.
Para resolver esta clase de problemas,Transformers es una arquitectura de red neuronal profunda presentada en 2017 por los investigadores de Google Brain. Los transformadores más famosos son las redes neuronales GPT (Generative Pre-trained Transformer) de la organización sin fines de lucro OpenAI. Esta tecnología, por ejemplo, le permite llenar un espacio en blanco con mayor precisión o predecir la siguiente palabra en una frase basada en palabras anteriores.
De acuerdo con este principio, se crean Marcas de voz.Soluciones de voz. El modelo entrenado se ejecuta en una gran cantidad de datos: se lanzan varios modelos con diferentes parámetros y se selecciona el mejor en la salida. Es importante que el robot "traduzca" correctamente el texto a la voz, no cometa errores en la pronunciación y la entonación. Para mejorar la calidad de la síntesis, el modelo se entrena aún más para casos de uso específicos, lo que le permite obtener las voces con un sonido más natural.
¿Dónde está la lógica?
El contenido semántico del robot, su lógica de negocio yse crean escenarios de interacción con las personas en estrecha colaboración con el cliente. Para que un asistente de voz brinde el máximo beneficio a un negocio, debe tener una buena comprensión de cómo está organizado este negocio, con qué preguntas y en qué situaciones el cliente se comunicará con el asistente.
Inventarse casos desde cero es una mala idea, lógicaLa interacción con el cliente debe ser real. Si un asistente se encuentra con una persona en la línea telefónica, entonces el guión se basa en una consulta, venta o algún otro guión: una secuencia de acciones de un empleado del centro de llamadas en un diálogo con un cliente. Al preparar un guión para un asistente de voz, ayuda analizar las solicitudes de usuarios reales, entrevistas con empleados que se comunican con ellos regularmente o experimentos de UX destinados a conocer las necesidades reales de las personas.
“Si un asistente se encuentra con una persona en la línea telefónica, entonces el guión se basa en una consultoría, ventas o algún otro guión”
Muchos clientes están tratando de expresarel asistente ayudó a los clientes a resolver problemas que les resultaban difíciles de manejar por sí mismos. Por ejemplo, a merced del robot, es mejor transferir funciones que están "profundamente" ocultas o no son obvias cuando se trabaja en una aplicación móvil.
Irina Stepanova, diseñadora de interfaces conversacionales y analista de Just AI:“Debe comprender que en diferentes canales hay un chat,aplicación, teléfono: el cliente se comporta de manera diferente. Por lo tanto, antes que nada, debe estudiar cuidadosamente el mapa de viaje del cliente en aquellos canales en los que planea implementar un asistente de voz. En la interfaz visual, el cliente tiene menos formas de cometer un error: casi todo lo que el servicio tiene para ofrecer está frente a sus ojos. En la interfaz de voz, el usuario no siente tan bien las limitaciones del servicio, y es necesario prever que una persona pueda expresar una solicitud al asistente con una frase larga, en la que será necesario resaltar frases significativas por el cual el programa determinará la esencia de la solicitud. Una tarea separada es diseñar un guión fuera del tema para el cual no existe un guión listo. El cliente puede preguntar cualquier cosa. Lo que hace que un robot sea humano es la variabilidad de las respuestas, cuando responde a la misma pregunta de diferentes maneras”.
Uno de los retos a la hora de diseñar una interfaz de voz es la capacidad de descubrimiento: cómo contar la historia que el asistente¿Puedes ayudar con eso?Aquí hay que actuar de forma proactiva: dar voz a las habilidades y destrezas y guiar al usuario a través del escenario, sugiriendo más pasos, ayudándole en los callejones sin salida cuando se pongaTambién puede hablar sobre las habilidades del asistente fuera del propio asistente: en publicidad, correos y con la ayuda de otras herramientas de marketing.
El asistente de voz no solo debe traerbeneficio, sino también ser un conversador interesante. Los desarrolladores siempre intentan poner todo lo posible en el "cerebro" de Brand Voice, dotándolo de carácter y personalidad.
El aprendizaje es un proceso continuo.
El desarrollo del modelo de voz no se detiene incluso despuéssu puesta en marcha. Después de seis meses de trabajo, la calidad del modelo mejora y después de un año se desarrolla más allá del reconocimiento. Si el cliente ha permitido el registro, es decir, la grabación de información sobre eventos durante el funcionamiento del asistente de voz, todos los datos de error se recopilan y se utilizan para volver a entrenar el modelo. El registro puede ser necesario cuando el asistente no puede reconocer palabras y frases específicas o comete errores en su pronunciación, por ejemplo, en los nombres de los medicamentos o en la variedad de un servicio de entrega.
La creación de una voz de marca generalmente se lleva a cabo en la nubeentorno y requiere el uso de datos personales, lo que a menudo plantea preocupaciones de seguridad entre los clientes. Y aunque la desconfianza hacia las nubes es un estereotipo superado, si para el cliente es importante que los datos no traspasen el perímetro de la empresa, pueden ser tratados estrictamente dentro del circuito informático de la organización. Los datos personales también se utilizan durante el registro, para garantizar su confidencialidad, los datos se anonimizan.
Creación de nuevos escenarios de trabajo y formación adicionalmodelos para Brand Voice es un proceso continuo. De hecho, al solicitar una solución de voz lista para usar, el cliente recibe un servicio que se mejora constantemente. Un asistente de voz verdaderamente de alta calidad no solo puede notar al personal de un centro de llamadas completo, sino también convertirse en un acento brillante que agrega individualidad a la imagen de la empresa.
Lee mas
El Arca de Noé de Elon Musk llevará a un millón de personas a Marte
Astrónomos de Japón han encontrado una estructura desconocida en la galaxia
Sable de origen desconocido encontrado en Grecia. Científicos desconcertados por un extraño artefacto