何をお探しですか?
データがビジネスの成否を決する時代が到来し、玉石混淆なデータから価値あるデータを精錬する技術の進化が続く。生成技術の発展も合成データに新たな活用の可能性をもたらそうとしている。データの能動的探求こそが競争力の源泉となる。

より一層高まるデータの価値

現在、デジタルデータを巡る争いが起きていることをご存知だろうか。革新的な技術やサービスを続々と市場に投入し、躍進を続ける一部の巨大デジタルプラットフォーマーによるデータの寡占化が進む中、国境を越えたデータの持ち出しに制限をかける等、国や企業によるデータ争奪戦が繰り広げられている。それは「データは新しい石油」とも言われるように、データがビジネスに欠かせない存在、経済活動の源となっているからだ。我々が日常生活で当たり前のように利用しているメール、SNS、音声アシスタント、ECサイト等の利用によって、日々新しいデータが生み出され、そのデータは消費者の嗜好分析やAIの性能向上等に利用されている。さらには、データをもとに新サービスが創出されると、そのサービスが生み出すデータを使ってまた新サービスを創出するという好循環も生まれている。

しかし、大量のデータだけを確保しても、それを活かす技術やアイデアがなければ新たな価値は創出できない。サイロ化された状態からのデータディスカバリーやアクセス制御等、データ活用を阻む課題は多数存在するが、近年のAI技術の発展によりデータ活用は新たな局面を迎えようとしている。その変化への対応力こそが今後の企業競争力となっていくだろう。

顕在化するバイアス問題

データの偏りは、データ分析において信憑性を失わせるが、AIの学習においても新たな問題を生じさせている。一部の顔認識AIでは、性別や人種によって認識精度に大きな差があることが判明した。このAIがセキュリティチェックで活用された場合、特定グループの人だけが認証されずに追加の確認を求められるといった不当な差別を助長しかねない。AIは認識対象と類似した学習データが多いほど精度は高くなるが、少なければ低くなる。利用目的によっては全体の精度を落としてでも、学習データを均一に揃え、判断対象による精度のばらつきを抑制する必要があるのかもしれない。

他にもデータを起因としたバイアスが問題となる場合がある。例えば、再犯の可能性を予測するAIにおいて、人種によって予測結果に偏りがあることが物議を醸し出している。このケースは、学習データを準備する際に偏りが生じたわけではなく、過去の事実をそのまま学習した結果である。ここでの問題は過去のデータとの相関関係しかないにも関わらず、因果関係があるかのようにAIが学習し判断してしまっていることだ。過去にある人種の再犯率が高い傾向にあったからといって、その人種だから再犯率が高いということにはならない。

今、各企業に求められるのは、単なる精度や効率性だけではなく、人々や社会が公平感を持って安心してAIを活用できるようにすることだ。この実現には、学習データや処理ロジックのバイアスの有無を確認できる術が必要だろう。2018年に複数の企業からAIバイアスを検知するツールが発表された。今後、AIの開発時にはサービス開始前に企業自ら積極的にAIバイアスを確認し、問題となるバイアスが存在すればそれを正していくことが、社会からの信頼の獲得と、企業の持続的成長につながるだろう。

より重要性を増すデータの真偽確認

Deepfakeと呼ばれる、AIによって映像中の人物の顔を入れ替える合成技術が登場し、そのソフトウェアが公開されたことで、フェイク動画を誰でも簡単に作れるようになった。この結果、勝手に有名人や選挙候補者の顔を入れ替えたフェイク映像が世の中に出回り、肖像権や人権の侵害、世論操作が社会問題化している。音声合成技術も発展しており、1分程の音声データさえあれば、その人の声で好きな言葉を発話させることが可能になってきている。映像と音声のフェイクを組み合わせることで、今後より一層本物との見分けが困難になる。また、AIはいかにも本当らしい文章も作成できるようになってきている。冒頭の文を人間が作成すると、どんな話題であってもAIはその続きの話を創作してしまうのだ。

これらに対抗すべく、偽コンテンツを検知する技術の開発が活発化している。SNS上に投稿された画像が合成画像かどうかをリアルタイムに検知するサービスも登場した。DARPAではMedia Forensicsプログラムを立ち上げ、虚偽の動画、画像、音声を検知するツールの開発に取組んでおり、まばたきの瞬間の不自然な目の動きや頭部の不自然な動き等、人間が持つ生理学的表徴をAIが再現できていない点に着目した検出技術の開発が行われている。しかし、データ生成の欠点が判明すると、それを補完する技術がまた発展してしまう。事実、まばたきや頭の動きまでを精巧に模倣し映像中の顔を入れ替える技術が登場している。

このようにリアルさをより一層向上させる合成技術と、虚偽を検知する技術の戦いは今後も続くだろう。SNSにおいてシェアされている約6割の記事が元記事のリンクを開かずにシェアされているという調査結果※1もあり、タイトルの面白さだけで拡散されていると言える。真偽が入り混じったデータから虚偽のデータを除外し、価値あるデータへと精錬させるためには、技術の発展と利用者のリテラシー向上の両方が必要不可欠だろう。

合成データの新たな可能性

AIによるデータ生成技術は偽コンテンツを増加させる一方で、データ活用に新たな可能性をもたらそうとしている。それはAIにおける学習データへの活用だ。合成されたデータは精度を低下させるノイズデータであり学習データには使えないという従来の認識が変わりつつある。

その一つの要因は、敵対的生成ネットワーク(GAN:Generative Adversarial Networks)と呼ばれる技術の発展により、本物と見分けがつかない程、極めて精巧なリアルな画像や動画が生成可能になったことだ。リアルさが向上しただけでなく、生成の制御方法も進化を遂げている。生成する対象を指定できるだけでなく、具体的な特徴やスタイルまでを指定した生成が可能な技術が登場している。例えば、人の顔を生成する際に、顔の向き、髪型、目・鼻の特徴、肌の色等を指定できるようになったのだ。AIの精度が低い特定の条件に合わせた学習データを生成し学習させることで、AIの精度向上が期待できる。また、学習データの偏りを補うデータを生成することで、先に述べたAIバイアス問題にも対処可能になるだろう。

合成データの活用を促進させるもう一つの要因は、ドメイン適応と呼ばれる技術の発展だ。これはあるドメインのデータを学習して得られた知識を別のドメインの学習に適応させる手法である。大量の学習データを用意可能なCG仮想空間上で学習した結果をもとに、十分な学習データを得ることができない現実世界の問題を解けるようになる可能性を秘めている。既に、ロボットアームや自動運転車の一部の制御をCG仮想空間でのシミュレーションによる学習のみで実現できるようになってきている。

このようにリアルな合成データを生成する技術の発展と、合成データをもとに現実世界に適応可能な学習方法の発展の相乗効果によって、合成データに基づくシミュレーション学習は今後、活躍の場を広げるだろう。シミュレーション学習は、高速かつ並列での実行による短時間での学習を可能にするだけでなく、稀なケースの学習も可能にする。例えば、自動運転車において、吹雪や濃霧等の人間には制御できない自然現象下のシーンや、歩行者やバイクが突然飛び出してくるといった再現するには危険を伴うシーンの学習も可能だ。今後、AIの精度を高められるデータをいかに加工・生成するかが重要となり、AIビジネスにおける競争力の源泉に変化をもたらすかもしれない。何が真かわからなくなりつつある現在、データという新しい石油を求めて発掘するだけでなく、偽コンテンツという不純物をいかに取り除くか、合成データという自家製燃料をいかに自ら生み出すかといった能動的なデータの探求が我々には求められている。