NTT DATA

DATA INSIGHT

NTTデータの「知見」と「先見」を社会へ届けるメディア

絞り込み検索
キーワードで探す
カテゴリで探す
サービスで探す
業種で探す
トピックで探す
キーワードで探す
カテゴリで探す
サービスで探す
業種で探す
トピックで探す
2019年5月29日技術ブログ

技術トレンド「能動的データ精錬と生成」
NTT DATA Technology Foresight 2019シリーズ~Vol.6

情報社会を取り巻く大きな潮流とITのトレンドを示す「NTT DATA Technology Foresight 2019」を全12回で紹介。第6回は技術トレンド「能動的データ精錬と生成」

より一層高まるデータの価値

革新的な技術やサービスを続々と市場に投入し、躍進を続ける一部の巨大デジタルプラットフォーマーによるデータの寡占化が進む中、国境を越えたデータの持ち出しに制限をかける等、国や企業によるデータ争奪戦が繰り広げられています。なぜならば、データがビジネスに欠かせない存在、経済活動の源となっているためです。
しかし、大量のデータだけを確保しても、それを活かす技術やアイデアがなければ新たな価値は創出できません。データ活用を阻む課題は多数存在しますが、近年のAI技術の発展によりデータ活用は新たな局面を迎えようとしています。その変化への対応力こそが今後の企業競争力となっていくでしょう。

顕在化するバイアス問題

データの偏りが存在するとAIの学習において新たな問題を生じさせます。AIは認識対象と類似した学習データが多いほどその対象に対する精度は高くなりますが、少なければ低くなります。例えば、人種や性別によって学習データ量に偏りがある状態で学習させた顔認識AIでは、人種や性別によって認識精度に大きな差が生じてしまいます。このような精度に偏りのある顔認識AIをセキュリティチェックで活用した場合、特定グループの人だけが認証されずに追加の確認を求められ、不当な差別につながる可能性があります。利用目的によっては全体の精度を落としてでも、学習データを均一に揃え、判断対象による精度のばらつきを抑制する必要があるのかもしれません。
このようなデータを起因としたAIバイアスを検知するツールがすでに発表されています。今後、AIの開発時には、サービス開始前に企業自ら積極的にAIバイアスを確認し、問題となるバイアスが存在すればそれを正していくことで、人々や社会が公平感を持って安心してAIを活用できるようにすることが求められるでしょう。

より重要性を増すデータの真偽確認

Deepfakeと呼ばれる、AIによって映像中の人物の顔を入れ替える合成技術が登場し、そのソフトウェアが公開されたことで、勝手に有名人や選挙候補者の顔を入れ替えたフェイク映像を誰もが簡単に作れるようになりました。これによる肖像権や人権の侵害、世論操作が社会問題化しています。
これらに対抗すべく、偽コンテンツを検知する技術の開発が活発化しています。SNS上に投稿された画像が合成画像かどうかをリアルタイムに検知するサービスも登場しました。しかし、合成技術の弱点が判明すると、それを克服するように技術が発展してしまいます。偽コンテンツを生成する技術と、虚偽を検知する技術の戦いは今後も続くでしょう。SNSでシェアされている6割の記事が元記事のリンクを開かずにシェアされているという調査結果もあります。(※2)真偽が入り混じったデータから虚偽のデータを除外し、価値あるデータへと精錬させるためには、技術の発展と利用者のリテラシー向上の両方が必要不可欠となります。

合成データの新たな可能性

AIによるデータ生成技術は問題を生み出す一方で、合成されたデータをAIの学習データへ使用することができるようになり、データ活用に新たな可能性をもたらそうとしています。これまで合成されたデータはAIの学習に使えないとされていましたが、その認識が変わりつつあるのです。
その一つの要因は敵対的生成ネットワーク(GAN:Generative Adversarial Networks)と呼ばれる技術の発展により、必要な特徴を含んだ、本物と見間違うようなデータを生成できるようになったことです。その結果、AIが苦手とする特定の条件に合わせたデータを生成して学習を行うことで、AIの精度向上が期待できるようになりました。
また、ドメイン適応と呼ばれる技術により、CGデータをもとに、十分な学習データを得ることができない現実世界の問題を解けるようになりつつあります。
今後、AIの精度を高められるデータをいかに加工・生成するかが重要となり、AIビジネスにおける競争力の源泉に変化をもたらすかもしれません。何が真かわからなくなりつつある現在、データという新しい石油を求めて発掘するだけでなく、偽コンテンツという不純物をいかに取り除くか、合成データという自家製燃料をいかに自ら生み出すかといった能動的なデータの探求が我々には求められています。
※1「NTT DATA Technology Foresight」特設サイト

http://www.nttdata.com/jp/ja/insights/foresight/sp/index.html

※2SNSでシェアされている6割の記事が元記事のリンクを開かずにシェアされているという調査結果

Social Clicks: What and Who Gets Read on Twitter?

お問い合わせ