音声アシスタントって何?
NTTドコモは2012年3月1日から「しゃべってコンシェル」参考1サービスの提供を始めました。音声アシスタントを起動してスマートフォンに話しかけると、天気予報や乗換案内アプリとの連携、スマートフォン内の電話帳検索、カメラの起動、スケジュールの表示などができます。外出先から行き先の駅名を話すと、近くの駅からの乗換案内が表示されます。タッチする回数が少ないため外出先では重宝します。アップルもiPhone® 4SでSiri®参考2と呼ばれる音声アシスタントの日本語版サービスを2012年3月8日から始めました(アップルはパーソナルアシスタントと呼んでいます)。
音声アシスタントの仕組み
音声アシスタントの処理は、一般的に3つのステップから構成されます。
第一ステップは音声認識参考3です。入力された音声の周波数信号をテキストに変換します。音声認識は古くから研究されており、すでに基本的な技術は確立しています。
第二ステップは認識されたテキストからユーザの意図を特定する処理です。音声アシスタントは天気予報やスケジュール連携など提供するサービスが決まっており、テキスト中からそれらのサービスに関連する単語を探します。どの提供サービスにも合致しない場合は、Web情報などのコンテンツから検索します。これはGoogleがAndroid™で提供している「音声入力によるWeb検索」に相当します。
第三ステップは応答です。音声合成により応答メッセージを読み上げるとともに特定したサービスを起動します。一連の処理を短時間で高精度に実現するため、クラウドにあるCPUとメモリ資源を活用しつつ、上記の3ステップで単語情報や応答事例などの大規模なデータベースを参照しています。
図:音声アシスタントの仕組み
今後の展開
一例として、エアコンに音声で指示を出せる製品は一般的に売られています。今後、家庭では情報家電やロボットとのコミュニケーションは音声インタフェースが中心になるでしょう。その際、機器への直接的な指示はもとより、クラウド側で指示を解釈し他のサービスと連携して新たな付加価値が提供されるようになります。例えば「機械翻訳」参考4や、IBMのワトソン参考5のような「質問への回答」、体の不自由な人や独居老人に対する「見守りサービスとの連携」などが考えられます。NTTデータでも、コミュニケーション高度化時代に向けて、ビジネスの芽となる技術の目利きを進めています。
- 注ページ内に記載されている製品名、サービス名、会社名は、各社の商標または登録商標です。