NTT DATA

DATA INSIGHT

NTTデータの「知見」と「先見」を社会へ届けるメディア

絞り込み検索
キーワードで探す
カテゴリで探す
サービスで探す
業種で探す
トピックで探す
キーワードで探す
カテゴリで探す
サービスで探す
業種で探す
トピックで探す
background-image-careers
2013年3月28日技術ブログ

ビッグデータ分析で注目される「PMMLとIn-Databaseアナリティクス」

データ分析処理において、DB(DWH)と分析サーバの間におけるデータ移動や、分析モデルを本番システム環境に移植することに伴う課題を解決する技術である、PMMLとIn-Databaseアナリティクスのポイントを解説します。

従来型データマイニングツールの課題

従来のデータ分析は、分析のモデル構築(分析モデリング)から予測(スコアリング)までを「R」参考1などのデータマイニングツールで実施してきました。これはいわばデスクトップツールの領域であり、対象データをDB(DWH)から抽出して、データマイニングツールが動作する「分析サーバ」上に移動する必要がありました(図)。しかし、分析サーバはDB(DWH)に比べて扱えるデータ量や処理速度に限界がある上、データ移動に時間がかかるため、非効率となることが課題でした。また、全データを使った予測(スコアリング)を実施する場合、分析サーバ上で構築した分析モデルを本番システム上で動作させる必要があり、それには本番システムで使用している言語(C、Java、SQL等)を用いて分析モデルを一からプログラミングし直す(移植する)必要がありました。二重で構築する手間が掛かることや、言語が変わるため結果が完全に一致しない点が課題でした。

PMMLとIn-Databaseアナリティクス

これらの課題を解決する技術として注目されているのが、分析モデルにポータビリティをもたらす「PMML」です。PMML(Predictive Model Markup Language)とは、標準化団体Data Mining Group参考2が策定した、異なるデータマイニング製品間で分析モデルの交換・共有を可能にするXMLベースの言語です。この技術を用いることで、システム環境やベンダの制約に縛られることなく分析モデリングを実施でき、本番環境へのプログラミング移植を省略して、DB(DWH)内でスコアリングが可能になります(図)。分析サイクルの短縮と品質担保の点で大きなメリットを享受できます。

一方、サンプリングを用いない全データでの分析や、より新鮮なデータを取込んだ分析が要求される場合に注目される技術が「In-Databaseアナリティクス」です。In-Databaseアナリティクスは、分析モデリングやスコアリングの処理を、分析サーバではなくDB(DWH)内に閉じて一貫して行うものです(図)。

【図】

NTTデータにおける検証

NTTデータでは、ビジネス・インテリジェンス技術を集約したデータ分析方法論「BICLAVIS®参考3の分析シナリオを対象として、PMMLやIn-Databaseアナリティクスの適用を検証しました。BICLAVISのシナリオ群(PMMLの対象外である最適化やシミュレーション技術関連は除く)に対するPMMLのカバレッジは8割を超えており、非常に高い親和性があることを確認しています。またIn-Databaseアナリティクスは既にお客様システムへの導入を始めており、非常に大きな分析パフォーマンスの向上を実現しています。PMMLとIn-Databaseアナリティクスがデータ分析による企業の競争力強化への動きを一気に加速させるという大きな期待のもと、引き続きビッグデータにおけるキー・テクノロジーとして取り組んでいきます。

参考文献

お問い合わせ