2020.12.3技術ブログ

マルチモーダルAIによる行動認識技術
~COVID-19対策への適用例~

人間の幅広く、詳細な行動を自動で把握する技術開発を目指し、マルチモーダルAI技術を活用した行動検出技術の開発を進めている。オフィスにおけるCOVID-19対策を事例に、マルチモーダルAIを用いると何ができるようになるのかと今後の取り組みについて説明する。

マルチモーダルAI技術を活用した行動認識技術とは

「モーダル」という言葉はAIへの入力情報の種類(映像、音、テキストなど)を意味し、「マルチモーダル」AIとは、様々な種類の入力情報を利用するAIのことを指します(※)。行動認識とは、入力されたモーダルから人の行動を検出し把握するための技術であり、危険行動を検出しアラートを出す、業務上の行動を自動で記録するなど、様々なビジネスの場面での活用が考えられます。

また、行動認識の入力には主に映像が利用されますが、AI技術の進歩により、映像から「映像中に映る物体の位置」、「人の骨格の位置」といった情報が抽出できるようになりました。NTTデータでは、それら抽出される様々な情報をモーダルととらえ、音といった別の形式で得られるモーダルも組み合わせながらマルチモーダルAIへの入力とすることで、「いつ」、「どこで」、「何を」といったより詳細な行動を把握するための行動認識技術の開発に取り組んでいます。

図1:マルチモーダルAI技術を活用した行動認識技術

図1:マルチモーダルAI技術を活用した行動認識技術

元々は人のコミュニケーションにおいて用いられる言語や身振り・手振りなどの様々な情報伝達手段全般を意味していた「マルチモーダル」という言葉に由来しています。

マルチモーダルAI技術を活用したCOVID-19対策

オフィスにおけるCOVID-19対策の一つとして、会議室やシステムを運用保守するオペレーションルームなどで共同利用する物品の清掃作業があります。清掃作業は利用後に毎回実施する必要があるため、専門の清掃スタッフではなく利用者本人が実施する運用になる場合が多く、清掃箇所の漏れが発生する可能性があります。この問題を解決するために、利用された物品と、清掃された物品を映像から検出することで清掃漏れの有無を自動検出し、利用者やオフィス管理者にアラートを出すための行動認識の取組みを行っています。

清掃漏れの有無を検出するためには、人が何の行動をしているのかという情報に加え、どの物品に対する行動なのかという情報が必要となります。これを実現するために、1ステップ目では映像を入力とするAIをもとに人や物体の位置の情報を抽出し、2ステップ目では映像とともに人や物体の位置情報を入力とするマルチモーダルAIを活用して、人と物の相互関係を把握する技術を開発しました。

図2:マルチモーダルAIを用いた行動認識技術による物品の利用と清掃の検知

図2:マルチモーダルAIを用いた行動認識技術による物品の利用と清掃の検知

図3:では実際に物品の利用や清掃作業を検出した結果を示しています。枠で囲まれた部分が人や物品の位置の検出結果で、人と物品を線で結んだ部分が、どの物品に対する何の行動かという相互関係の検出結果となります。また、利用された物品の枠は赤色の枠となり、清掃された物品は緑色の枠となります。この例では椅子の清掃をしておらず、椅子の枠が赤色のままであることから清掃漏れの検出ができていることが確認できます。

図3:会議室における物品の利用と清掃作業の検出結果の実例

図3:会議室における物品の利用と清掃作業の検出結果の実例

最後に

マルチモーダルAIを活用した行動認識技術の展開例としては、COVID-19対策としてあげた清掃作業の検知の他に、映像と音のモーダルの組み合わせから大声で話す人物を特定することで、公共の場での迷惑行動を検出することなどが考えられます。NTTデータでは、業務ごとに要求が異なる行動認識の内容に応じたモーダルの選択と、それを入力としたマルチモーダルAIの構築方法を確立するとともに、AIを実際に現場で運用するための、デバイス、端末を含めたシステム開発の方法論化も並行して進めています。今後も、現場の様々なニーズを実現し、サービス化まで素早く対応するべく、技術開発を進めていきます。

お問い合わせ
- NTTデータは、「これから」を描き、その実現に向け進み続けます -