2020.12.9技術ブログ

「現実的にワークする」データカタログ

「データの種類が膨大で、データレイクのどこに何が格納されているのか分からない」「思いついた仮説を検証したいがデータの所在が分からない」。お客様からのこんなご相談が、この1~2年で激増している。データカタログを無理なく構築し育てる方法を探る。

HadoopやNoSQLの誕生を受け、2012年ころから「ビッグデータ」というキーワードが広く認知されました。そして、クラウド、ストリーミング、AIといった様々な要素技術の発展が、大量データの収集と活用を後押ししてきました。

多くの企業や組織が「データレイク」構築に取り組み、従来のシステムでは取り扱うことが困難だった巨大で複雑なデータを収集・格納しています。
データレイクに社内外から収集した様々なデータが格納されると、もはやその全貌を把握することが困難で、「欲しいデータがどこにあるか分からない」「目の前のデータの業務的な意味が分からない」という問題に直面します。

このようなお客様からのご相談が増えており、「データカタログ」での解決をご案内しています。データカタログとは「データのデータ」である「メタデータ」を管理し、「欲しいデータはどこにあるか」「目の前のデータはどういう意味か」「それを活用するにはどうしたらよいか」を提示するツールです。

データカタログで管理するメタデータは、大きく「テクニカル・メタデータ」「ビジネス・メタデータ」「活用メタデータ」の3種類に分類することができます。

1つ目の「テクニカル・メタデータ」は、もっとも基本的なメタデータです。例えばデータの所在のフルパス、テーブル物理名、カラム物理名、データ型、データ長などが該当し、実際にデータ利用するにあたっての必須情報と位置付けられます。
2つ目の「ビジネス・メタデータ」は、業務的な意味の解説です。テーブルやカラムの論理名や説明のほか、コード値の具体的なコード体系や、ソースシステム、連携頻度、保持期限といった情報も有用です。
3つ目の「活用メタデータ」は、みんなはどのように当該データを利用しているか、というノウハウです。人気があるデータはどれか、最近発行されたSQLはどのようなものか、よく一緒に結合されるテーブルはどれか、といった情報が考えられます。

「データカタログ」のお話をすると、「それを維持・メンテナンスするのは多大な労力が必要なのではないか」と尻込みされるお客様もいます。
率直に申し上げてそのご懸念は正しく、この分野はツールを導入するだけで終わらせることなく、メタデータを「育てていく」不断の努力と工夫が必要になります。どう工夫すれ効率的に運用ができるのか、ポイントをご説明します。

第一に、機械的に整備できるメタデータは自動収集する仕組みを作ることです。
特に「テクニカル・メタデータ」はDBMSに問い合わせれば答えてくれたりしますし、データレイクを含む様々なターゲットからメタデータを自動クローリングする「AWS Glue」や「Azure Data Catalog」といったクラウドサービスも出てきています。
また「ビジネス・メタデータ」も、設計ドキュメントに記載されている内容であれば、設計リポジトリを定期的にクローリングしカタログに反映する仕掛けを作るとよいでしょう。例えば「項目の論理名」「説明」「データの由来」「保管期限」などは設計書に書いてあることが多いのではないでしょうか?

第二に、メタデータを整備する作業を「データ・スチュワード」のような有識者によるトップダウンなアプローチだけに頼るのではなく、ソーシャルでボトムアップなアプローチを組み合せることです。データ分析者やソースシステム管理者など広範に参加してもらい、「自分はこのようにデータを活用している」「このデータとあのデータをこのように組み合わせることができる」「このデータの利用にあたっては、こんな注意点がある」といった知見を、みんながWikiのように追記していくのです。すべての項目を満遍なく解説する必要はなく、大事なものから順番に少しずつ育てていくことが肝要です。

現在、データカタログ分野は非常にホットで、ETLツールベンダー、DBベンダー、BIツールベンダー、クラウドサービスプラットフォーマ―などが入り乱れた戦国時代の様相です。素晴らしいツールも多数出ていますが、一方で「高いライセンス料を払ってツールを購入したものの、うまく使いこなせていない」というお客様の声を聞くことも少なくありません。
こういった失敗をしないためには、データカタログ導入の目的を整理することです。カタログ化の対象は各業務システムのDBMSも含むのか、BIダッシュボードにまで手を広げるのか。カタログ化するETL処理の説明はテーブル間の関係だけでよいのか、カラム間の関係も追うか。
これらを整理することで、必要十分な機能を有するカタログツールを安価に採用したり、真に必要なメタデータのみに絞って収集する運用にしたりすることができるでしょう。

NTTデータは高度データ活用を実現するABLER™(※1)を通じて、お客様のデータカタログの企画、構築、運用のお手伝いをすることを含め、「データの活用」をお客さまと共に考え、実現するDXパートナーとして貢献します。

※1 「NTT DATA REAL INTELLIGENCE with Agility」サイト

https://abler.nttdata.com/

- NTTデータは、「これから」を描き、その実現に向け進み続けます -
お問い合わせ