絞り込み検索
キーワードで探す
カテゴリで探す
サービスで探す
業種で探す
トレンドで探す
キーワードで探す
カテゴリで探す
サービスで探す
業種で探す
トレンドで探す
background-image-careers
2018.8.24技術ブログ

「データ民主化」を支えるデータエンジニアリング

データ分析の価値を、特定のターゲットではなくより多くの人々で享受する「データ民主化」の取り組みが広まっています。本稿ではデータ民主化と、それを支えるデータエンジニアリングのポイントについて紹介します。

「データの価値」の高まり

ビジネスにおけるビッグデータ活用は現在では一般的なものになりました。古くは大量データのバッチ処理による定形レポートから、セルフサービスBI・データディスカバリなどのビジネスユーザー自身でのドリルダウン分析、近年では機械学習・AI技術活用による予測モデルの作成など活用の幅が広がっています。また、企業の保持するデータやアイデアによっては活用範囲がその企業内にとらわれず、保持するデータに付加価値を加えて他社に提供するケースも出現しています。「平成29年 情報通信白書(※1)」では、「データ」が第4次産業革命の根源であると述べられています。データ処理技術の進歩とともに、データそのものの価値も高まっているといえるでしょう。

データ民主化とは

初期のビッグデータ分析基盤において、蓄積されたデータの多くは重要な判断をする意思決定層およびそれらを直接支える統計学や分析手法に精通したデータサイエンティストをメインターゲットとするものでした。近年、データレイク(多種、大量のデータをそのままの形で蓄積する蓄積基盤)の活用ケースの増加とともに、データサイエンティストのような専門性がないユーザーまでデータを開放し、それぞれのアイデアでの活用を試み、データの価値を多数のメンバで享受するための「データ民主化」が注目されています。

「データ民主化」を支えるデータエンジニアリング

本稿で述べるデータ民主化は、上述の通り特定の技術・ツールの総称というより、企業内の多くのプレイヤーによるデータ活用の文化、およびその状態を目指す取り組み示す概念・組織文化となります。
データ民主化が理想的な状態で進むと、経営者やデータサイエンティストに限らず、企画・営業・開発など様々なロールのメンバがそれぞれのアイデアでデータ活用が可能となります。従来異なる用途で利用されていたデータを組み合わせての分析など、組織・チーム間のコラボレーションの幅も広がるでしょう。

エンジニアリング観点でのデータ民主化のポイント

データ民主化の主役は企業活動におけるすべてのプレイヤー(企画職、営業職、開発職、データサイエンティスト、経営者、etc…)ですが、適切な活用にはそれらを支えるデータ基盤およびデータエンジニアリングも重要となります。本節では筆者がデータ基盤に携わってきた経験から、データエンジニアリング観点での筆者が考えるポイントを一部紹介します。

1.データのサイロ化

システムライフサイクルが長期化するにつれて、度重なるシステム更改やM&Aに伴うシステム統合が多く発生します。その結果、類似したデータが複数システムに散在し、互いに連携しづらくなる「データのサイロ化」が発生しています。また、長期間の運用の中でデータ仕様が陳腐化し、データを論理的に理解することが困難なケースも少なくありません。一方で、データ民主化を進めるためには、分析頻度の増加や、分析範囲の拡大といった課題を解いていく必要があります。そのため、大量データの論理的意味をすばやく解釈し、高速にデータ統合を進める仕組みが重要になります。
また、データは異常値や外れ値などを含んでいることが多く、そのまま取り込んでも適切に結びつけられるとは限りません。そこで、データ統合前に実施するデータクレンジングについても体系化と自動化を進め、分析前のコストを可能な限り低減しておく必要があります。

2.多様なデータ処理要求の実現

ビッグデータ活用の黎明期は、従来不可能だった大量データの蓄積・バッチ処理が主流でした。近年はユースケースの拡大とともに、「直近のデータを用いた速報値が知りたい」「機械学習などを利用し予測値が知りたい」「テキストデータ/トランザクションログに加えて、非構造・半構造データも併せて蓄積・活用したい」といった多様な要求が生まれました。現在ではデータ活用のためのコンポーネント・ツールは数多くの選択肢がありますが、それぞれ得意不得意があります。求められるワークロードに応じた技術の目利き力と、異なる技術を組み合わせてビジネス要求を達成するデータ基盤のアーキテクトとしての能力が求められます。
また、データの民主化が進むとユーザのデータ基盤へのアクセスが増加します。エンドユーザの利便性向上や計算リソース低減(によるコスト低減)のため、システムチューニングの重要性がますます高まるでしょう。

3.変化への対応

アジャイル開発やDevOpsなどの文脈などでビジネス要求変化への迅速な対応力については古くから語られていますが、データ活用においてもその重要性は同様です。(※2)基本的にエンドユーザ自身でのトライアンドエラーによる活用が可能な環境を目指しながらも、運用途中で「○○のデータも組み合わせたい」という要求が発生することは考えられるでしょう。「データソースの追加」「データ前処理の追加」などデータ活用基盤内部の変化が必要となる場合、それらに必要なデータソース連携、プログラミング、テストを高速に回す環境・プロセスの整備が重要となります。

個別の課題として記載すると古くからシステム開発で発展してきた技術要素・開発技法の総合的な活用とも言えますが、「大量データ」「スケーラブルなアーキテクチャ」や「レガシー/モダンなデータの同時活用」といった要素が合わさると思わぬ落とし穴があることも事実です。NTTデータでは多くのデータ活用案件の実績を集約し、データ活用組織実現のためのノウハウや技術を提供しています。

おわりに

データ民主化が目指すところと、それを実現するにあたってのデータエンジニアリング視点でのポイントについて述べました。企業、組織のビジネスモデルや、潜在的に保持するデータの多様性に応じて、データ民主化実現までのストーリーも独自のものとなるでしょう。また、本章で述べたボトムアップの技術的アプローチと合わせて、エンドユーザのデータ活用の文化の醸成、そのためのビジネスユーザ・エンジニアそれぞれのコミュニケーションが重要です。

  1. ※1 平成29年 情報通信白書:
    http://www.soumu.go.jp/johotsusintokei/whitepaper/ja/h29/html/nc130000.html(外部リンク)
  2. ※2 DevOps,アジャイル開発を駆使したデータ活用組織のメソドロジーとして、DataOpsという概念も提唱されています。
    https://en.wikipedia.org/wiki/DataOps(外部リンク)
お問い合わせ