何をお探しですか?
機械との会話は日常に溶け込みつつある。機械は人からの指示への対応のみならず、話者の感情やコンテキストを理解しつつ、自発的な対話能力の獲得を目指し進化を続ける。そして機械は人に新たな気付きを与え、人の思考を支援する存在へ昇華していく。

日常に広がる機械との会話

コンピュータと話す、そんな光景が広がりつつある。億を超えるスマートフォンには音声アシスタントが搭載され、スマートスピーカーの販売台数も急速に伸びている。電子レンジや冷蔵庫、トイレ、電子ピアノにまで音声インタフェースが具備されつつある。テキストを用いたチャットボットもサービスが乱立し、多くの企業で採用が進んでいる。

提供されている機能も、情報の検索や機器の操作から商品の注文まで多岐にわたる。しかし、実際に利用されている機能は限定的だ。2018年に行われた調査※1では、スマートスピーカーの用途は約6割が音楽再生であり、家電操作等の他の目的による利用は決して多くない。スマートスピーカーで買い物を行う利用者はわずか数%程度とも言われている。

機械との会話が浸透するためには、人が人と会話をするように、機械とも会話できることが重要だ。連続した会話の中で相手の意図を正しく理解し、場合によっては言葉以外で相手の五感に訴えかける。このような人との自然なインタラクションが機械にも求められているのだろう。

記憶による会話能力の向上

自然な会話の実現に向けた動きは着実に進んでいる。一つは会話の連続性だ。会話は決して一往復では終わらずに連続する。そして、連続した会話では頻繁に主語や目的語が省略される。人であれば会話の中からそれらを補完することが可能だが、機械には難しい。それ以前に、話しかけるたびにウェイクアップワードと呼ばれる、機械を起動させるコマンドが必要となる。これは、話すたびに相手の名前を言うようなものだ。これに対し、いくつかの音声アシスタントはこの課題を克服した。ウェイクアップワードは最初に語り掛ける時以外は不要となり、機械は名前を言われなくとも会話を続けることが可能になったのだ。また、直前の会話内容を記憶し、省略された主語や目的語を補完することも可能となった。

Googleが公開した、人々が電話を用いて行う現実世界のやりとりをAIが代わりに実行する技術であるDuplexは、こうした連続性や会話の記憶を用いた最もわかりやすい例だろう。美容院の予約という限定的なシーンではあるが、人と遜色ない自然な会話を実現し、機械の会話力に大きな期待を集めるきっかけとなっている。

より長期の記憶に向けたアプローチも始まっている。人から「これを覚えておいて」と指示された内容を記憶することは可能となり、また、天気を聞いた場所や購入した商品といった単語レベルであれば、会話から自動で抽出し、長期的に記憶することもできるようになりつつある。記憶を辿りながらの会話が可能になれば、人と機械の意思疎通はより自然なものになる。機械が毎回同じことを聞いてくる、そういったストレスからも解放されるだろう。

求められる文脈の理解

質問の内容を正しく理解し、返答を組み立てる会話制御も重要だ。AIによる自然言語処理は盛んに研究が行われているが、画像認識等のAIの他の分野に比べ遅れをとっている。複数の意味を持つ単語や、学習するためのデータが不足している等、様々な問題が存在するためだ。

これらの問題を解決する新たな技術が登場している。文脈を考慮した上で高精度に単語の意味を判断し、文章を正しく理解することができる技術が開発されたのだ。また、その技術を活用して事前学習されたモデルが公開された。このモデルを土台とすることで、「文章から地名や人名等の固有表現を抽出する」、「質問に対する適切な回答を選ぶ」等の様々なタスクを少量のデータで学習可能になってきている。事実、この技術とモデルを活用することで、SQuAD(Stanford Question Answering Dataset)をはじめとした自然言語処理における代表的な11のタスクにおいて、従来の最先端の手法を上回る精度を実現している。

美容院の予約では有用だったDuplexもレストランの予約というシーンでは、話題が少し噛み合わず、ぎこちない会話となってしまった。急な話題の転換等、人の会話は自由でそして複雑だ。AIの進展は、人の気まぐれな会話にも正確かつ柔軟に機械が対応する糸口として期待される。

非言語情報の把握と活用

会話において、言葉で伝えられるメッセージは35%であり、残りの65%はジェスチャーや表情といった言葉以外によるものだと言われている※2。この非言語情報を活用した会話を機械が習得できれば、人が行う会話に近づくのかもしれない。

非言語情報を把握するために、人の表情をセンシングし、会話に活かす動きが活発だ。最近の研究では、表情から相手の気分を類推した上で返答するチャットボットの開発が進んでいる。このチャットボットは、返答内容に合致した表情を相手に示すこともできる。同じ言葉を受けたとしても、相手が笑顔であれば笑顔で回答し、不機嫌そうであれば心配そうな表情で相手に返答する。会話において、表情から相手の感情を読み取り、自身の感情を示すことの重要性は、メールやSNSで利用される多様な顔文字や絵文字の存在が物語っている。機械が相手の表情を読み取り、機械からも表情を示すことで、人が機械の話す内容を理解しやすくなるだろう。

他にも、声色から感情を類推したり、画像から「可愛い」といった感情をコメントする等、非言語情報の活用は多方面で進展している。今後、感情に加えて周囲の環境や相手の置かれた状況も把握可能になれば、これまで受身であった機械は、より自発的な存在へと変わるだろう。人が自身では気づかない微妙な変化を察知し、声をかけるといった気遣いが可能になるかもしれない。くしゃみから風邪薬を提案するアシスタントや、会話からうつ病の可能性を推測するチャットボット等、このアプローチは既に始まっている。

機械との会話がもたらす可能性

人は質問や指示、共感、ストレスの解消、説得等、実に多くの理由から会話という行為に至る。人にとって自然な会話能力を獲得し、相手の状況や感情を把握できるようになった機械は、今後、人々が行う会話の多くの場面に浸透し、会話を用いて人を支援する存在となるだろう。例えば、人同士の会話を機械が聞き、その会話に関する情報をリアルタイムで画面に表示するシステムは、国や世代の異なる話者間の会話理解を円滑に進めるのに大いに役立つ可能性を持つ。

また、人と機械によるディベート対決は、今後の機械の対話力を感じさせる一つのきっかけとなった。機械が持つことのできる莫大な知識から、与えられた初見の題目を紐解き、人が理解できるように根拠を結び付けながら論旨を構築し主張する。これを実現するための技術は、人間のディベートチャンピオンと競うところまできているのだ。今後、当たり前のように機械と議論を重ね、機械からの洞察を参考に新たなアイデアを生み出し、機械とともに意思決定を行う、そんな光景が日常になるのかもしれない。

古より人類は会話という行為を通じて、文明を築き、社会を発展させてきた。今後も、会話によって人々は分かち合い、協力し、進むべき道を解き明かしていくことは続いていく。その時、機械は、人が営む会話をより円滑に、そして創造的なものへと変化させていくのではないだろうか。