2019.10.24技術ブログ

マルチモーダルAI技術が拓く未来

人の識別機能を模倣するAI技術の発達が著しい。本記事では、AIをさらに人に近づけるためのアプローチとして注目されているマルチモーダルAI技術とは何か、どのような問題に適しているのかを紹介する。

AIは人の認識をモデル化する

ディープラーニングに代表される機械学習技術の発展により、AIのビジネス適用が進んできています。これまでは人でなければ実行できなかったタスク、例えば写真から人の顔を見つけて誰の顔なのかを識別したり、通話内容を自動で文字に起こしたり、ニュース記事の要約を自動生成したりといったことが、AIによって高速かつ高い精度で行えるようになって来ました。

ここで挙げた例では画像から人物の分類、音声からテキストへの変換、テキストからサマリを生成、というそれぞれのタスクをAIが実現しています。これらは人の識別・認識する機能の一部をAIモデル化していると言い換えることができます。

一方で、実際の人の振る舞いはどうでしょうか。人は様々な情報を多面的に認識し、活用しながら行動しています。例えば対面で会話するとき、人は聞こえたことを解釈するだけではなく、相手の表情の変化を感知し、その場の状況やお互いの関係性といったことを考慮して話しています。

AIをさらに人に近づけようと考えたとき、このような多面的な情報を組み合わせて処理し、認識する機能をAIモデル化することが必要となります。この技術のことを「マルチモーダルAI技術」と呼びます。

マルチモーダルAI技術とは

「モーダル」という言葉はAIへの入力情報の種類(画像、音声、テキストなど)を意味し、「マルチモーダル」AIとは、様々な種類の入力情報を利用するAIのことを指します(※)。前述の例でいえば、相手の表情と言葉から感情を分析するようなAIは、映像と音声のモーダルを利用したマルチモーダルAIと言えます。他にも、見た目・匂い・味からワインを選んだり、画像と音とで機器の異常を検知したり、気候データと衛星画像で天候を予測したりといった様々な場面でマルチモーダルAIの適用が考えられます。

このようなマルチモーダルAIは、一見すると複数の情報を個別にAIに認識させれば解決できる、簡単な問題に思えてしまいますが、例えば、表情が一瞬変わった瞬間に話された言葉には、普段の言葉とは違う意味があるでしょうし、悲しい話をしながら表情が笑っていれば、より慎重に表情から心理を推察する必要があるといったように、実際にはそれぞれのモーダルからの情報を複雑に組み合わせる必要があります。

現時点では複数モーダルの情報をどのように扱うのが最適なのかということは明らかになっておらず、盛んに研究が行われています。

図1:シングルモーダルAI vs マルチモーダルAI

図1:シングルモーダルAI vs マルチモーダルAI

目指すはエキスパート技術のAI化

NTTデータではマルチモーダルAIの究極のゴールとして、熟練のエキスパートによる「審査業務」に着目しています。

様々な業種業界で実施されている検査や審査といった業務は、現状、多くの場面でベテランの勘や経験によってなされているため、完全なロジック化・システム化が難しいとされており、業務量の増加へ対応するための自動化や、後継者の育成・ノウハウの引継ぎが困難といった課題を抱えています。

マルチモーダルAIはこれら課題の解決策として期待されています。

例えば、イラストの新規性を審査する業務において、人が新規性を判断するシーンでは、申請されたイラストだけでなく、申請書に添付された説明情報も利用して、過去に類似したものがあるかを判断しています。この業務では画像×テキストを利用し、概念も含めて類似したイラストを検索するマルチモーダルAIが有効であると考えられます。

図2:新規性審査におけるマルチモーダルAI

図2:新規性審査におけるマルチモーダルAI

また、不正な貨物を検査する業務では、貨物の重さや色・形状、送り主や宛名の内容や印字の特徴などといった多面的な外観情報から、怪しいとされる貨物を選別しています。この業務では3D情報x画像xテキストxテーブルデータを利用して、貨物外観の怪しさを判別するマルチモーダルAIが有効と考えられます。

図3:貨物審査におけるマルチモーダルAI

図3:貨物審査におけるマルチモーダルAI

NTTデータでは、他にも融資審査、保険審査、車両の検査など、多様な情報を統合した判断を必要とするあらゆる審査業務について、マルチモーダルAIによる自動化・高度化を実現すべく、技術開発を進めています。

元々は人のコミュニケーションにおいて用いられる言語や身振り・手振りなどの様々な情報伝達手段全般を意味していた「マルチモーダル」という言葉に由来しています。

お問い合わせ