いま『音声×AI』が注目される理由
生成AIの登場により、4度目のAIブームが到来したといわれています。今回のAIブームは、過去の一過性のものではなく、インターネットやスマートフォンのように「なくてはならないもの」として社会に定着するでしょう。
画像やテキストのAI活用と比べると、音声データは使い方や効果が十分に認知されていません。しかし、この分野には、音声を自動でテキスト化する技術、テキスト化された会話の内容を要約する技術、話している内容や感情を分析する技術など、さまざまな優れた音声認識技術があり、有効活用することで、生産性の向上や、会話をビッグデータとして資産化し、AI活用に活かすことができます。

音声認識技術が普及すると、身近な生活にも変化が起こります。たとえば、現在はパソコンはキーボードやマウス、スマートフォンはフリック入力など、手動で操作するGUI(グラフィカルユーザーインターフェース)が主流ですが、音声認識の精度が高まると、スマートスピーカーのような音声による入力や操作ができるVUI(ボイスユーザーインターフェース)のニーズが高まります。音声入力はフリック入力の約1/3の時間で入力ができ、操作時間の短縮に繋がります。
また、情報の出力においても音声の活用が進むと想定されます。既存のAIから出力された情報を取集する際は、文章やグラフなどで表現されていてわかりやすい一方、視覚を奪われるという短所があります。その点、音声による情報収集は「ながら」聞きが可能です。分析結果や資料の内容を聞いているときは、脳は多少その内容の処理をしなければなりませんが、視覚は自由で、手も足も自由です。VUIは視覚を奪われることがなく、「ながら」作業が可能なため、タイムパフォーマンスがよく、可処分時間を増やし、生産性の飛躍的な向上が期待されます。
AI時代における音声データの可能性
これまでビジネスにおけるデータといえば、メールや書類のようなテキストや画像情報が中心でした。一方で、人は1日に1回あたり30分、合計で約6時間と多くの時間を会話に費やしています(国立国語研究所調べ)。顧客と担当者との間で交わされる会話の中には、商談の進展に役立つ情報や、意思決定に関わる内容など、経営に係る重要な情報が含まれています。このような情報を担当者が議事録等の文章にまとめる場合、話した内容を細かく記載するには労力もかかりますし、担当者の主観が入り、正確に記録することは非常に困難です。
そこで会話を録音し、AIで解析します。すると、自動で商談内容を文字起こし・要約して議事録を作成するだけでなく、話した内容をトピックごとにわけて、感情の変遷なども併せて共有することが可能になります。工数を掛けずに正確な情報を伝達できるようになるのです。
ほかにも、話し方の特徴を分析・可視化できたり、どのような話をした際に相手が反応を示したのかがわかったりと、自分でまとめたり分析をしたりしなくても、音声データとAIの力でコミュニケーションを最適化させることができます。
このように会話の内容をAIで解析することで、顧客と担当者が「なにを」「どのように」話しているかわからないといった「会話のブラックボックス化問題」を解消します。さらに中長期的には音声データを蓄積し、ビッグデータ化が可能になるのです。

しかし、単に音声を録音するだけではAI活用には繋がらないため、注意が必要です。コールセンターの顧客対応等で会話を録音するケースが一般的になりつつありますが、録音ファイルを、AIが使える構造化された音声データに整える必要があります。

音声認識エンジンを使って会話をテキストデータに変換し、話し方・感情解析エンジンの解析結果や周辺システムの情報と紐づけを行い、「誰が、いつ、どの業界の、どの担当者と、なにをどのように話して、その結果どうだったのか」といった情報を音声に付与することで、AIが使える構造化データにトランスフォーメーションさせることができます。
ビジネスシーンにおける音声×AIの活用例
音声データのAI活用は、営業力の強化やマーケティング、人材育成など企業活動のあらゆる場面で変革をもたらす力を持っています。
営業
商談や顧客対応の会話を録音し、AIで解析することで、「話すスピード、トーク比率、抑揚、相手に被せて発言した回数、沈黙回数、会話のラリー数」などを定量的に可視化します。ハイパフォーマーの話し方をもとに、研修や商談スクリプトを改善することで、営業部門全体のスキル向上が実現します。また、音声データを蓄積・分析することで「この業界は、何曜日のこの時間帯に電話をかけるとつながりやすい」といった、行動と成果の相関性も明らかになり、データに基づいた効果的な目標設定が可能になります。
音声データを営業活動に活用していくためには、まずは担当者にメリットを感じてもらうことも重要です。日常業務で音声認識を活用することにより、議事録作成や報告業務の時間が削減され、生産性が上がれば担当者は喜んで使うでしょう。音声データを活用するメリットを感じてもらい、自ら進んで使ってもらうようなシステムを導入することで、音声を活用したデータドリブンな営業活動が可能になります。
商品開発・マーケティング
これまで顧客の声を直接聞くには、BtoBの商品・サービスの場合は商談への同席、BtoCの場合にはグループインタビュー、テストマーケティングなど、実施に手間やコストのかかる手法が一般的でした。インターネットでの購買活動が一般的になってからは、アンケートやヒアリングの工数は以前に比べて軽減したものの、これらの手法はテキストデータによる回答収集にとどまることから、お客様の「本音」や「ニュアンス」を本当に聞けているのかという点には課題がありました。
顧客の声を「音声データ」として蓄積することで、顧客のパーソナリティ・ニュアンス・緊急度・温度感を伴う定性・定量データを、工数をかけることなく自動でリアルタイムにビッグデータとして収集でき、分析に活用できることから、マーケットインの商品開発やマーケティング施策の実現が可能となります。
大手金融機関では、 コールセンターでの会話をすべてビッグデータとして収集し、それを活用して顧客に合ったサービスの提案やマーケティング施策に活用し始めています。これまでコールセンターは、「コストセンター」などとみなされることもありました。これからは、顧客の声を音声データとしてAIを活用することで、「セールスセンター」や「マーケティングセンター」としての機能を持ち、利益を生み出す重要な顧客接点となり得ます。
人材育成・マネジメント
人材育成には、「指導スキルの差」「具体的な改善点を伝えられない」という2つの課題があります。音声データは、この課題解決にも大いに役立ちます。
「指導スキルの差」については、教え上手な社員の会話をAIで解析します。たとえば、部下に慕われる上司は「部下の話を遮らずに最後まで聞く」「相手と同じペースで話す」など、AIの話し方解析により指導スキルの差を生む要因が明らかになります。これまでブラックボックスだった優れた指導者のスキルを共有し、ノウハウとして蓄積することで、企業全体で育成力を向上させることが可能です。
「具体的な改善点を伝えられない」という点においても、たとえば、従来は「もっとゆっくり話す」「相手の話をよく聞く」などの抽象的なアドバイスに留まっていましたが、音声AIを使うことで「1秒あたり何文字で話すべきか」や「どれだけの時間を、話を聞くことに費やすべきか」など、定量的なデータを基に具体的な指導が可能になります。
また、話し方解析により、担当者が自らデータを見て振り返り、ハイパフォーマーと比較して改善点を見つけ、トレーニングする「セルフコーチング」が可能になります。人材育成の効率化、セルフコーチングが促進されるとマネジメント層の育成負担が軽減され、新たに生まれた時間で組織全体のマネジメントや自身のスキルアップに充てることができます。こうした取り組みは、組織全体のパフォーマンス向上に直結します。
AI社会で重視される企業の資産
今回紹介した活用例に限らず、企業活動のさまざまな場面で音声データを蓄積し、それらを分析することで、データに基づく意思決定ができるようになり、データドリブン経営を推進することが可能になります。
いままで資産といえば、金などの有形資産が主流でしたが、これからのAI社会では、画像、テキスト、音声などのデータという無形資産が企業の競争力を左右する時代になるでしょう。日ごろのコミュニケーションそのものに価値があるという意識をもち、コミュニケーション自体を資産化し、データ蓄積の文化を持つ企業が市場で競争力を高めていくと予想します。
プロフィール
株式会社RevComm代表取締役
會田 武史(あいだ・たけし)
三菱商事株式会社にて自動車のトレーディング、クロスボーダーの投資案件・新会社設立、M&A案件等に従事。2017年7月株式会社RevComm設立。電話解析AI「MiiTel Phone」、Web会議解析AI「MiiTel Meetings」、対面会話解析AI「MiiTel RecPod」を提供。著書に『音声×AIがもたらすビジネス革命 VOICE ANALYSIS』(幻冬舎)がある。