2018年6月25日技術ブログ

技術トレンド「持続可能なデータ活用」 NTT DATA Technology Foresight 2018シリーズ～Vol.6

NTTデータが導出した2018年の情報社会や技術のトレンド「NTT DATA Technology Foresight（※1）」を全10回で紹介。第6回は技術トレンド「持続可能なデータ活用」。

期待が高まるデータからの価値の創出

スマートスピーカーの普及、動画マーケティングの盛り上がりにより、音声や動画等の非定型データが人間や機械によって大量に生成されています。生成されるファイル数は2年で約2倍に増加する見込みであり、全世界で1年に生成されるデータ量は2025年には163ゼタバイトになるとも言われています。ディープラーニングの登場以降、画像や動画に含まれる物体や人物、動作の抽出や、音声からの感情推定等が可能となり、分析に利用可能な情報が飛躍的に増加しています。これにより、SNS上の画像からファッションの流行を把握したり、車載カメラの映像から危険運転を検知したりすることが可能になっています。今後はより一層、非定型データから価値創出がなされ、多種多様なデータの活用が進むでしょう。

コンテンツ自動生成技術の発展

AI技術の発展は、ニュース記事や動画のようにそれ単体で価値のあるデータ、いわゆるコンテンツの自動生成を実現しています。敵対的生成ネットワーク（GAN（※2））と呼ばれる技術により、コンテンツ生成能力が飛躍的に向上しており、文章からリアリティのある画像の生成や、リアルタイムに映像内の人物を入れ替えた動画の生成等が可能になっています。

コンテンツ自動生成技術は、作業の効率化だけでなく、個人の興味ごとに異なるコンテンツを生成することで、パーソナライズされた情報の提供も可能にします。動画は購買時や技術導入時の意思決定に重要な役割を担うようになっており、パーソナライズされた動画の生成が可能になれば、人間の意思決定の方法にも大きな影響を与えるでしょう。

過熱する捏造とチェックの戦い

世論の扇動にも利用されるフェイクニュースは社会問題となっています。コンテンツ生成技術を悪用すれば、事実のような記事や、本物かのような画像・音声・動画等を大量に生成できてしまいます。
この問題に対応すべく、世の中に情報が伝播されていくパターンや文章内の表現のパターンからフェイクニュースを検知する技術が開発されています。他にも、機械学習を用いたフェイクニュースの推定、ファクトチェックを行う第三者機関との連携、ユーザの記事に対する評価を集合知として信頼度に利用する等、様々な対策が模索されています。

データ依存により顕在化するAIの問題

ビジネスに欠かせない存在となっているAIはデータに依存しており、データの品質はAIや人間に大きな影響を与えています。ユーザの偏った発言内容を学習した場合、差別や偏見を含む発言をしてしまう可能性があります。また、「Adversarial Examples」と呼ばれる、AIを意図的に欺くデータの存在も重大な問題となっています。データにわずかな細工することで、人間には不自然に感じさせずに、AIだけに誤認識させることができてしまうのです。この問題に対処するために、擬似的なAdversarial Examplesを生成することで、脆弱性を事前に確認可能な「Cleverhans（※3）」と呼ばれるライブラリも登場しています。今後、AIには精度だけでなく悪意あるデータへの頑健性の確認も重要となるでしょう。

図1：技術トレンド「持続可能なデータ活用」

持続的なデータ活用に向けて

データは新たな価値を生み出す可能性を十分に秘めています。しかし、偽データ、偏ったデータ、AIを騙すデータの存在は、データ活用の根底を揺るがしかねません。持続的なデータ活用には、技術面の対応として、データの虚偽や偏りを検知する技術や頑健なAIの開発が必要ですが、技術に完全に依存するのではなく、悪意のあるデータが含まれている前提でシステムを構築し、データを活用することが必要です。また、データに問題がなくても、AIの誤判断が問題となることもあります。AIの精度が100％でない限り、用途によっては運用での対処も必要になるでしょう。

社会全体でデータを共有し信頼性を担保する仕組みも必要ではないでしょうか。一企業でデータの品質確認を行うには限界があり、また、IoT機器等から収集したデータを一企業に閉じて利用するのでは創出される価値も限定的になります。蓄積したデータや、品質確認済みのデータ、生み出した知識を他の企業が活用することができれば、社会全体でのさらなる価値の創出が見込まれます。

データやAIの信頼性を社会が一丸となって高めることができれば、今まで以上に社会の発展と価値創造をもたらす存在になりえます。これには、人間のリテラシーやデータに対する価値観の見直しが必要なのかもしれません。

※1 「NTT DATA Technology Foresight」特設サイト
http://www.nttdata.com/jp/ja/insights/foresight/sp_2018/index.html
※2 GAN
Generative Adversarial Networks：
生成器と識別器の2つのニューラルネットワークで構成される学習アルゴリズム。生成器は学習データに極力近いデータを生成し、識別器はその生成されたデータが本物か偽物かを識別する役割を担う。この2つを戦わせ、両者の能力を向上させていくことで、最終的に生成器は限りなく本物に近いデータの生成が可能となる。
※3 Cleverhans
https://github.com/tensorflow/cleverhans

お問い合わせ