話しましょう：AIがコールセンターのオペレーターを黙って置き換えた方法-Geek Tech Online

スマートな「トーカー」

声は自然なコミュニケーションツールです。多くの人は問題を口頭で解決したいと考えています。

書面の場合は、単純にその方が速いからです。クライアントとのビジネスコミュニケーションにおいて、これは便利でネイティブな対話方法です。しかし、すべての企業が顧客ベースの成長率に比例してコールセンターの人員を拡大できるわけではありません。自動化は、クライアントとのライブコミュニケーションを拡張する効果的な方法になりつつあります。これにより、品質を犠牲にすることなく、使い慣れたコミュニケーション方法を維持し、より多くの連絡先と連絡を取ることができます。

音声技術は多くの分野で使用されていますが、子供たちはインタラクティブな「話し手」に惹かれ、若者はスマートデバイスの音声制御を高く評価し、アシスタントは高齢者にニュースを読みます。しかし、音声アシスタントは、金融、小売、通信など、顧客とのポイントコミュニケーションが多い業界で最も需要があります。

「音声技術は多くの分野で使用されています」

大手企業は音声を使用テクノロジーは最初の年ではありません。 2017年以来、バンクオブアメリカは仮想アシスタントであるエリカを運営しています。 2018年以来、メルセデスベンツは音声コマンドを理解するデジタルユーザーエクスペリエンス（MBUX）コンプレックスを導入しています。小売業者のウォルマートは、顧客の製品検索を支援するAskSam音声アシスタントを備えたアプリケーションを立ち上げました。 Adobe Analyticsによると、ブランドの91％はすでに音声ソリューションに多額の投資を行っており、投資を増やす予定です。今後5年間のロシアの音声AI市場は38％から81％に成長し、2025年には5億6,100万ドルのレベルに達するとJustAIは予測しています。

私は信じています-私は信じていません

ビジネスは実装の有効性を評価します顧客満足とブランドロイヤルティに焦点を当てた音声技術。しかし、多くの顧客は、抑制された熱意でイノベーションを見ています。 Voicebot.aiによると、モバイルアプリケーションで音声アシスタントを見たいと思っているユーザーはわずか45％です。 Neuro.netによると、嫌いな主な理由は、回答の質の低さと音声アシスタントの合成音声です。これらの問題は、過去の世代のテクノロジーに基づいて構築されたインターフェイスによく見られます。最新の機械学習アルゴリズムにより、魂のない声を合成することが可能になります。

もう1つの制限要因は音声テクノロジーは、クライアントの観点から見た「良い」シナリオと「悪い」シナリオの両方で普及しています。音声インターフェースの開発を専門とする企業はまだ市場に出回っておらず、提供できる音声の数は限られています。今日、人が広告や不正な電話に悩まされ、明日は便利な電話が鳴ると、「すべてのロボットが1つの声を持っている」ため、通信が成功しないことがわかります。音声アシスタントの評判が損なわれると、クライアントに役立つ通話の効果はゼロになります。したがって、ブランドボイスが作成されます-ユニークなブランドボイス。

「ユニークな声はブランドの重要な部分です。ロゴまたは企業フォント。ますます多くのお客様がこの機能を使用し、独自の声でお客様と関わっています。会社員やアナウンサーの声で、特定のイントネーションのフレーズを録音します。また、電話番号や住所などの多数の動的データが自動的に生成され、従業員の声が再現され、リアルなイントネーションが維持されます。これは、企業がコミュニケーションを自動化する方法ですが、顧客の忠誠心を維持し、コンバージョンを増やします。人々は、活発な声で話され、対話を喜んで行うことを喜んでいます。」

Ivan Artemiev、MTT製品ディレクター

モデルを話す

完成したブランドボイスのコストは150から始まります千ルーブルであり、音声合成モデルの範囲と複雑さに依存します。ソリューションを作成するプロセスは、技術的部分と論理的部分の2つの部分で構成され、それぞれが個別の製品チームの責任です。

この部分の重要なステップは、音声の選択です。その上で音声が合成されます。声は、会社が宣伝することが重要であるブランド属性を国際的に反映する必要があります。プロのアナウンサーまたは吹き替え俳優は、録音の下で最大40時間の言語構成を話す必要があります。音声ロボットモデルはこの素材でトレーニングされるため、録音は高品質で、不要なノイズがなく、発音が正しい必要があります。

モデルをトレーニングし、本格的に実装するには合成には、複雑さに応じて1か月から6か月かかります。しかし、技術は進歩しており、スタジオでの録音時間は徐々に減少しています。将来的には、元の音声を2〜3時間使用するだけで、優れた音声ロボットを入手できるようになる可能性があります。

「完成したブランドボイスのコストは15万ルーブルから始まります」

人工知能を学ぶ

録音の準備ができたら、トレーニングが始まります音声モデル。彼女は録音された素材を処理し、自分の声を再現することを学び、その結果、任意のテキストから音声を合成することができます。

このクラスの問題を解決するには、Transformersは、GoogleBrainの研究者によって2017年に導入されたディープニューラルネットワークアーキテクチャです。最も有名なトランスフォーマーは、非営利団体OpenAIのGPT（Generative Pre-trained Transformer）ニューラルネットワークです。たとえば、このテクノロジーを使用すると、ギャップを最も正確に埋めたり、前の単語に基づいてフレーズ内の次の単語を予測したりできます。

この原則に従って、音声ブランドが作成されます。音声ソリューション。トレーニングされたモデルは、膨大な量のデータで実行されます。いくつかのモデルが異なるパラメーターで起動され、出力で最適なモデルが選択されます。ロボットがテキストを音声に正しく「翻訳」し、発音やイントネーションを間違えないようにすることが重要です。合成の品質を向上させるために、モデルは特定のユースケース向けにさらにトレーニングされており、最も自然な響きの声を得ることができます。

ロジックはどこにありますか？

ロボットのセマンティックコンテンツ、そのビジネスロジック、および人々との相互作用のシナリオは、顧客と緊密に連携して作成されます。音声アシスタントがビジネスに最大の利益をもたらすためには、このビジネスがどのように構成されているか、どのような質問があり、どのような状況でクライアントがアシスタントに連絡するかをよく理解する必要があります。

ケースを最初から発明することは悪い考えです、論理クライアントとのやりとりは本物でなければなりません。アシスタントが電話回線で人に会う場合、スクリプトはコンサルティング、販売、またはその他のスクリプトに基づいています。これは、クライアントとの対話におけるコールセンターの従業員の一連のアクションです。音声アシスタントのスクリプトを作成するときは、実際のユーザーの要求の分析、定期的にコミュニケーションをとる従業員へのインタビュー、または人々の実際のニーズを見つけることを目的としたUX実験に役立ちます。

「アシスタントが電話回線で人に会った場合、スクリプトはコンサルティング、営業、またはその他のスクリプトに基づいています」

多くのお客様が声を出そうとしていますアシスタントは、クライアントが自分で処理するのが難しい問題を解決するのを助けました。たとえば、ロボットに翻弄されて、モバイルアプリケーションで作業するときに「深く」隠されているか、はっきりしない機能を転送することをお勧めします。

Just AI の会話型インターフェースのデザイナー兼アナリスト、イリーナ・ステパノヴァ氏は次のように述べています。「さまざまなチャネルでチャットがあることを理解する必要があります。アプリケーション、電話-クライアントの動作は異なります。したがって、まず、音声アシスタントの実装を計画しているチャネルのカスタマージャーニーマップを注意深く検討する必要があります。ビジュアルインターフェイスでは、クライアントは間違いを犯す方法が少なくなります。サービスが提供するほとんどすべてのものが目の前にあります。音声インターフェースでは、サービスの限界をあまり感じず、重要なフレーズを強調する必要のある長いフレーズでアシスタントにリクエストを発声できるようにする必要があります。プログラムがリクエストの本質を決定します。別のタスクは、既製のスクリプトがないオフトピックスクリプトを設計することです。クライアントは何でも尋ねることができます。ロボットを人間にするのは、同じ質問にさまざまな方法で答えるときの答えのばらつきです。」

声の発達における問題の 1 つは、インターフェース - 発見可能性: アシスタントが何ができるか、そして何を手伝うことができるかをどのように判断するか?ここで必要です 積極的に行動する - スキルや能力を声に出してユーザーをシナリオに沿ってガイドし、さらなるステップを提案し、「認識されないリクエストの処理」に入ったときに行き止まりの分岐でユーザーを助けます。また、広告、メール配信、その他のマーケティングツールの使用など、アシスタント自体の外部でのアシスタントの能力について話すこともできます。

音声アシスタントはメリットだけでなく、興味深い会話主義者になることもできます。開発者は常にブランドボイスの「頭脳」に可能な限り多くのことを注ぎ込み、キャラクターと個性を与えようとしています。

学習は継続的なプロセスです

音声モデルの開発はその後も止まらないその試運転。 6か月の作業の後、モデルの品質は向上し、1年後には認識を超えて発展します。クライアントがロギングを許可している場合、つまり音声アシスタントの操作中のイベントに関する情報を記録している場合、すべてのエラーデータが収集され、モデルの再トレーニングに使用されます。アシスタントが特定の単語やフレーズを認識できない場合や、薬の名前や配達サービスの品揃えなど、発音を間違えた場合は、ログ記録が必要になることがあります。

ブランドボイスの作成は通常、クラウドで行われます環境に影響を与え、個人データを使用する必要があります。これにより、顧客のセキュリティ上の懸念が生じることがよくあります。クラウドへの不信感は時代遅れのステレオタイプですが、データが会社の境界を超えないことがクライアントにとって重要である場合、クラウドは組織のIT回路内で厳密に処理できます。個人データはロギング中にも使用され、機密性を確保するために、データは匿名化されます。

新しい作業シナリオの作成と追加のトレーニングBrandVoiceのモデルは継続的なプロセスです。実際、既製の音声ソリューションを注文することで、クライアントは絶えず改善されているサービスを受けられます。真に高品質な音声アシスタントは、コールセンター全体のスタッフに気付くだけでなく、会社のイメージに個性を加える明るいアクセントにもなります。

続きを読む

イーロンマスクのノアの箱舟は100万人を火星に連れて行く

日本の天文学者は銀河に未知の構造を発見しました

ギリシャで見つかった起源不明のセイバー。奇妙なアーティファクトに戸惑う科学者

ギークテックオンライン

技術とガジェットに関するすべて

声を上げましょう：AIがコールセンターのオペレーターを静かに置き換えた方法