2021年1月14日技術ブログ

映像コンテンツの配信作業を大幅削減するAIソリューションとは

近年、世界的に映像コンテンツは増え続け、2025年までには175ZBになるとされている。しかし、放送事業者は年々増える動画の品質確認を手作業で行っている。
NTTデータは、AIを用いた映像のエラー検知ソリューションにより、放送事業者の課題解決を目指す。

1.VQCとは

現在、世界の全動画データ量は約45ZBあるといわれており、今後2025年までには約4倍の175ZBになるとされています。（※）

Annual Size of the Global Datasphere

こういった中で、コンテンツ制作から配信、管理まで、放送事業者が直面しなければならない課題は多岐にわたり、放送事業者の負担は、今後益々大きくなっていくことが予想されます。中でも、映像コンテンツの品質制御は、規制に準拠したコンテンツを配信するためには不可欠な作業です。例えば、コンテンツが高解像度であっても古い素材を用いることで発生する品質の問題や、フレームの明るさや色の問題、適切な字幕の有無に問題があるかを確認する必要があります。

某海外メディア企業様においても、映像コンテンツの配信前に、どのようなエラーがいつ起きているか、コンテンツの品質を目視で確認するという作業を行っています。1時間のコンテンツ確認に2.5時間程度をかけており、年間15,000コンテンツ程度（約36,500時間）を対象に実施しています。そこでNTTデータでは、AIを用いてコンテンツ確認の作業を自動化することにより、この課題解決を目指した実証実験を行いました。

複数の確認項目がある中、お客様と協議し、下記6つの項目について自動化手法を検討しました。

これらの実証実験を通してNTTデータとNTT Data Italyが2019年に共同で開発したのが、映像コンテンツのエラー検知ソリューションVQC（Video Quality Control）です。

※Data Age 2025, Sponsored by Seagate with data from IDC Global Datasphere, Nov 2018: https://www.i-scoop.eu/big-data-action-value-context/data-age-2025-datasphere/

2.MARMnet

VQCではLSTM（Long-Sort Term Memory）と畳み込みニューラルネットワーク（CNN）を組み合わせた、当社独自のアルゴリズム「MARMnet」を活用しています。

一般的なニューラルネットワークでは、入力情報の空間的な情報が無視されるため、複雑な画像では正確さが低くなり、精度も低くなります。そこで、多数の異なる畳み込みフィルターを用いて畳み込み演算をすることで、画像内の空間的な情報を2次元のまま入力データとして扱う、畳み込みニューラルネットワーク（CNN）を活用しました。

また、映像分析では一般的な画像分析のように静止画一枚の情報のみを活用するのではなく、前後情報を用いたシーケンシャルな分析が必要になります。そのため、入力パラメータ数が多く、複雑な時系列データに対応するモデルが必要です。これに対し、不要な情報は記憶せずに忘れ、必要な情報のみ使うため計算が早いLSTMを採用しました。
これらのモデルの活用により、各確認項目を約90％以上の精度で検出し、某海外メディア企業様は2.5時間かかっていた映像コンテンツ確認の作業を、40分に短縮することができました。

3.VQCの応用例

現在は某放送事業者様と、映像コンテンツのバックアップ系統への切り替え判断の自動化を目指した実証実験を行っています。
某放送事業者様は既存ツールで常時映像コンテンツを監視し、異常時は人がバックアップ系統への切り替え判断を行っています。しかし、既存ツールは特定の異常において誤検出が多く、人間の目視確認が必要不可欠です。そこで、既存ツールで検知された異常のうち、バックアップ系統への切り替えの要否をAIを用いて識別・通知するロジックを開発しています。上記のVQCの活用も視野に入れ、VQC開発での知見を活かして取り組んでいます。

今回は、放送事業者の持つ様々な課題に焦点を当て、VQCの取り組みを紹介しました。しかし、放送事業者に固執せず、映像AI技術として幅広い分野での適用を目指しています。

- ＮＴＴデータは、「これから」を描き、その実現に向け進み続けます -

お問い合わせ