NTT DATA

DATA INSIGHT

NTTデータの「知見」と「先見」を社会へ届けるメディア

絞り込み検索
キーワードで探す
カテゴリで探す
サービスで探す
業種で探す
トピックで探す
キーワードで探す
カテゴリで探す
サービスで探す
業種で探す
トピックで探す
background-image-careers
2014年10月9日技術ブログ

In-Database Analyticsとリアルタイム処理

「大量のデータがすでにデータウエアハウスに蓄積されているが、データ分析に時間がかかり過ぎる」という、ビッグデータ時代におけるデータ分析の悩みとその解決方法とは?

分析モデルの構築と適用

まず、従来型のデータ分析の課題とIn-Database Analyticsの説明については「参考1」をご覧ください。In-Database Analyticsの発想は単純で、データが「計画的」に蓄積される基盤であるデータウエアハウス(以下DWH)で分析処理を実行させるというものです。データをDWHから抽出し、分析ツールに転送する時間が不要となり、さらにはDWHエンジン自体の並列処理度が向上し続けていることもあり、使用する分析アルゴリズムが並列分散処理に対応していれば、大幅な速度向上を実現することができます。これまでの分析ツールは、「DWHからのデータ抽出」「分析モデルの構築」「予測等の分析処理の実施」をDWH等と連携しつつ、主に分析ツール側で分析に関する処理を行ってきましたが、今後はその役割が見直され、大部分の処理は大量データを蓄積するDWH側にオフロードされ、分析ツール側では最少のデータに対する必要最低限の処理を担当していくようになっていきます。

In-Database Analyticsが効果を発揮する場面は、「分析モデルの構築」および「分析モデルの適用」にあります。特に「分析モデルの適用」については、DWHに格納されている全量データに対して高速に適用することができます。しかし、DWHへのデータ格納は日次や時次で行われることが多く、即時性が欠けます。その分「分析モデルの適用」にもタイムラグが発生することになりますので、In-Database Analyticsにおける「分析モデルの適用」はバッチ処理向きと言えます。一方、周囲の環境の変化は時々刻々と変化し続けており、イベントが発生するタイミングで分析モデルをリアルタイムに適用していきたいという要求が非常に高まってきています。実際、われわれのところに来る相談も多くの割合を占めるようになってきています。しかし、In-Database Analyticsによって高速に処理できるようになったと言っても、それだけではリアルタイム化は実現できません。せいぜいオンデマンド化でしょう。

【図】

図:DWHからのデータ抽出を行うことなくデータ分析を実現

リアルタイム化

それではどのように「分析モデルの適用」をリアルタイムに実現するか?ですが、それにはいくつか方法はあると思います。NTTデータでは、実現方式の一つとしてCEP参考2との連動を進めています。In-Database Analytics技術を用いてDWH内で分析モデルを構築し、その分析モデルをCEPにシームレスに移植して、発生するイベントに対してリアルタイムに適用していくことができます。分析モデルが割と頻繁に見直され、新しいモデルに対してリアルタイムに結果を出したい場合には大きな効果を得ることができます。実現のポイントとしてはIn-Database Analytics(DWH)とCEP間での分析モデルのポータビリティです。生成された分析モデルを一からプログラミングし直すことをせず、QCDを担保したまま分析モデルをCEPに持っていくための技術開発を進めています。

【図】

図:絶えず発生し続けるデータに対してリアルタイムに分析結果を得る

蓄積基盤、分析基盤、処理基盤の連携・融合は今後ますます進化し、データ量の問題は技術革新で克服され続けることでしょう。今後のビッグデータを支えるIT基盤として必要なポイントは、それぞれの基盤技術がシームレスに連動し、分析者等からのアクセスを容易にする、もしくは、分析した結果をスムーズに日々のオペレーションに組み込んでいくことにあります。実はそのための動きは既に始まっており、分析ツール側から各基盤への処理のオフロードが実装されてきています。やがて分析者はこれまで慣れ親しんだツールを使いつつ、これまでできなかった大量データに対する分析を、データ量を意識せずに実施可能となっていくでしょう。

注釈

  • QCD(Quality Cost Delivery)

    品質、コスト、スピードの3要素のこと

お問い合わせ