NTT DATA

DATA INSIGHT

NTTデータの「知見」と「先見」を社会へ届けるメディア

絞り込み検索
キーワードで探す
カテゴリで探す
サービスで探す
業種で探す
トピックで探す
キーワードで探す
カテゴリで探す
サービスで探す
業種で探す
トピックで探す
2021年11月22日技術ブログ

安全なデータ流通と活用のためのテクノロジー

AIやデジタル化の普及に伴い、データの利用価値は一層高まっている。さらに、企業や業界を超えたデータ活用も今後増えてくる。一方で、個人のプライバシーや企業の機密情報をどう守るかという安全性の確保も重要となる。用途に合わせてデータの安全性を担保するための最新の技術について、本記事で解説する。
目次

1.クロスドメインでのデータ流通における安全性の担保

データは、単なる保管対象から、分析してビジネスへフィードバックできる資源となっています。その中でも、企業や業界を超えたクロスドメインでの活用範囲が広がっています。
データ分析において、ひとつの閉じた組織のデータで分析するよりも、様々なデータを組み合せることで、有効な分析結果を導き出せる場面はよくあります。例えば、都市での混雑緩和のために、交通の運行情報や個人のスマートフォンからの行動履歴などを組み合わせて、都市計画に活かすスマートシティなどのケースが挙げられます。
一方で、個人のプライバシーや企業の機密情報をどのように保護するかは常に議論の的となっています。
このような機微なデータを保護する観点での安全性担保を目的に、まずは流通対象となるデータを分類し、それに対応する最新技術をご紹介します。

2.流通対象データの分類

(1)オリジナルデータ(生データ)

データ保護のための加工をせずにそのまま扱うデータをオリジナルデータと規定します。一般に生データとも言われます。情報の正確性や追跡性の面で後述の他のデータ分類よりもメリットがあります。
例として、オープンデータなど公開されたデータの場合は、オリジナルデータのまま流通・活用することが大半です。
機微なデータでもオリジナルデータで分析するケースも数多くあります。ひとつの組織内で、システムとしてセキュリティを担保した上での分析であれば問題ありません。ただし、個人情報を扱う場合は、個人情報保護法に則って適切な管理・運用が求められます。情報漏洩のリスクに対しては細心の注意を払わねばなりません。

(2)暗号データ

オリジナルデータを暗号化することで、第三者による情報閲覧を防ぎます。
復号化したときにデータの完全性が保証されている方式では、オリジナルデータと同様の正確性で分析できます。
ただし、暗号キー管理や復号後のオリジナルデータの管理など、データフローに沿って管理と運用を考える必要があります。さらに、暗号化によるシステム面や性能面でのコストの考慮も必要です。
近年では、データを暗号化したまま計算処理ができる技術や、一部のデータ項目だけを暗号化できる技術も広まりつつあります。

(3)統計データ

個人のデータを統計情報としてまとめ、個々の識別ができない形で可視化し分析するケースがあります。例えば、コロナ禍における繁華街の混雑状況を把握するために、個人の同意を得てスマートフォンの位置情報を集計し、分析に活用する例などがあります。
統計解析は、個々のデータを保護する目的もありますが、統計により有効な結果を導き出すことを主目的にしているケースがほとんどです。ビジネスの場でのデータの統計化や可視化の実績は昔から数多くあります。
統計データを分析のデータソースとして見ると、個々のデータは秘匿化されている反面、情報粒度が粗いことや他データとの結合が難しい点は注意する必要があります。

(4)匿名加工データ

匿名化の一般的な定義は、個人の情報を加工して、個人の識別や情報の復元をできないようにすることです。
個人情報保護法の改正により、匿名加工のルールや情報の管理などについての規定が追加されました。ここでは、ガイドラインに沿って匿名加工することで、本人の同意なく第三者提供できることが定められています。(※1)
デメリットとしては、匿名化により情報粒度が落ちることで、分析の精度が望めない場合があります。個人特定のリスクを抑え、かつオリジナルデータの特徴を多く有するような、バランスを保った加工が求められます。
さらに、個人データを特定できないように結合キー情報も削除する必要があるため、他の情報と組み合わせての分析ができません。

(5)学習モデル

発想を転換して、上記のようなデータではなく、機械学習のモデルやそのパラメータを流通させる分散学習の手法が登場してきています。
データ自体を外部に出す必要がないため、データ流通の観点での漏洩リスクはありません。(ただし、学習モデルからオリジナルデータを推測できないことが前提です。)
デメリットとしては、まだ研究途上の技術であるため、適用できるモデリング手法が限定されることや、モデル生成に時間がかかることが挙げられます。

表1:流通対象データの分類

データの分類メリット考慮点対応テクノロジーの例
オリジナルデータ
(生データ)
情報の完全性、追跡性情報漏洩リスクへの対策
個人情報の適切な管理
暗号データ暗号化による秘匿性強化暗号化による処理コスト増
暗号キーの運用管理
秘密計算
統計データ統計化による秘匿性強化
多数のビジネス実績
データソースとしての情報粒度
他データとの結合
(統計、可視化ツールなど多数の実績あり)
匿名加工データ匿名化による秘匿性強化
法的に認められた第三者提供可能な加工
多数のビジネス実績
匿名化による情報損失
結合キーの欠落
匿名性と有用性のバランス
匿名加工ツール
学習モデルモデルパラメータのみ流通
データ自体は非開示
特定のモデリング手法のみ対応
発展途上の技術
Federated Learning(※2)
(※1)個人情報保護委員会のページ参照

https://www.ppc.go.jp/personalinfo/tokumeikakouInfo/

3.安全性を担保する技術

ここからは、データ流通・活用で安全性を担保する技術の秘密計算と匿名化をご紹介します。

(1)秘密計算

秘密計算は、データを暗号化したまま計算処理を行うことができる技術です。第三者にオリジナルデータの内容を知られることなく、サーバ上で統計分析や機械学習などの処理ができます。
データ分析者は、オリジナルデータを参照できない状態でも、その処理結果だけを復号化して知ることができます。
注意点として、暗号化した状態で行える処理ロジックの種類には制限があります。さらに、暗号化状態での計算処理は、オリジナルデータの場合よりも原理的に時間がかかります。近年では処理速度は上がってきていますが、実システムで許容範囲に収まるかの事前検証が必要です。

秘密計算を実現するためにはいくつかの方式があります。ここでは代表的なものを2つご紹介します。

マルチパーティ計算(秘密分散ベース)
マルチパーティ計算(MPC)では、データを暗号化、分割して格納する秘密分散の技術をベースに、暗号化状態で計算処理ができます。

これを採用しているNTT社会情報研究所の秘密計算システム「算師」(※3)の処理例を下図で示します。また、この秘密計算システムをクラウドで利用できるサービスをNTTコミュニケーションズが「析秘」(※4)で提供しています。

図1:秘密計算システム「算師」での処理例

図1:秘密計算システム「算師」での処理例

図1:秘密計算システム「算師」での処理例

準同型暗号
元のデータを暗号化したまま処理を行い、鍵を用いて処理結果のみを復号化することでデータを保護する方式です。
復号鍵を持っている人のみ、処理結果の暗号データを復号できる仕組みです。

図2:準同型暗号の基本的な仕組み

図2:準同型暗号の基本的な仕組み

(2)匿名化技術

特定の個人の識別や情報の復元ができないように加工します。匿名化のための手法は様々あります。

加工手法
ここでは個人情報保護委員会事務局のレポート(※5)を参考に代表的な加工手法と例をご紹介します。

表2:代表的な加工手法
(個人情報保護委員会事務局のレポート(※5)を参照、分類を再構成)

表2:代表的な加工手法

k-匿名化
データの匿名性を評価する代表的な方法として、k-匿名性と呼ばれる評価指標があります。k-匿名性は、同じ属性組のデータがk個以上存在し、k人までしか個人を絞り込めない状態のことを示します。
これはレコード削除や一般化を組み合わせて実現します。これにより匿名性は担保できますが、情報量が大幅に低下する可能性もあります。

Pk-匿名化
レコード削除や一般化を行わずにランダムな書き換えによって「k-匿名性」と同等の匿名性を実現します。
k-匿名化よりも情報量の低下を抑え、有用性を維持しつつ匿名化します。

図3:k-匿名化、Pk-匿名化の概要

図3:k-匿名化、Pk-匿名化の概要

匿名加工ツール
これらの様々な匿名加工処理を実行できるツールとして、NTTテクノクロスが「tasokarena」(※6)を提供しています。GUIで実際にデータを見ながら、加工ルール設定や、匿名性、有用性について評価を行うことができます。

(※3)秘密計算システム「算師」

https://www.rd.ntt/research/SC0001.html

(※4)秘密計算サービス「析秘(せきひ)」

https://www.ntt.com/about-us/press-releases/news/article/2021/0819.html

(※5)個人情報保護委員会 匿名加工情報 パーソナルデータの利活用促進と消費者の信頼性確保の両立に向けて

https://www.ppc.go.jp/files/pdf/report_office.pdf

(※6)匿名加工情報作成ソフトウェア tasokarena(タソカレナ)

https://www.ntt-tx.co.jp/products/anontool/

4.まとめ

今後、社会のデジタル化が進展する中で、企業や業界を横断するデータの利活用はますます進んでいきます。特にスマートシティやエネルギー、医療の分野など、複数の組織のデータをセキュアな状態で集約し、データを分析する機会が増えてきます。
今回ご紹介したテクノロジーは一部であり、他にもID認証やブロックチェーンの活用など、データの安全性担保のために多種多様な技術が存在します。用途に合わせて最新技術を組み入れてシステム化し、既存セキュリティ技術も合わせて全体として安全性を担保し、運用していく必要があります。
NTTデータでは、最新技術の活用とシステム開発・運用を含むトータルでのデータ流通・活用基盤を構築し、社会のデジタル化に貢献していきます。

- NTTデータは、「これから」を描き、その実現に向け進み続けます -
お問い合わせ