NTT DATA

DATA INSIGHT

NTTデータの「知見」と「先見」を社会へ届けるメディア

絞り込み検索
キーワードで探す
カテゴリで探す
サービスで探す
業種で探す
トピックで探す
キーワードで探す
カテゴリで探す
サービスで探す
業種で探す
トピックで探す
background-image-careers
2013年3月7日技術ブログ

ビッグデータ処理技術の発達過程と3分類

ビッグデータの効率的な活用には、「ビッグデータ処理技術」が不可欠です。この技術の特性を理解し、ビジネスで活用していくことが重要になります。

ビッグデータの幕開け

2004年にGoogleは大規模検索サービスを実現するための基本技術であるGFS(Google File System)やMapReduceを論文形式で公表参考1、2し、大きな注目を浴びました。これがビッグデータの始まりと考えられます。その後もGoogleは大規模データ処理技術の開発を行い、Sawzall(大規模データに対する特定の処理を効率よく記述できるプログラム言語)、BigTable(列のデータ処理を効率化した大規模対応データベース)、Dremel(大規模データを分散システムで解析する技術)、Percolator(大規模データベースに短い間隔でアクセスできるインデックス方式)、Spanner(新しいパラダイムで実装された大規模データ分散システム)などの最先端技術を次々に公表してきました。これらの技術公開に呼応する形でオープンソースソフトウェアの開発が行われ、Apache Hadoop(MapReduceを参考に実装されたオープンソースソフトウェア)、Apache Hive/Pig(Sawzallに似たデータ管理/操作用言語)、Apache Hbase(BigTableを参考に実装されたオープンソースソフトウェア)、Cloudera Impala(Dremelを参考に実装されたオープンソースソフトウェア)参考3などが続々と誕生し、今では誰もが容易にビッグデータを扱える環境が整備されました。近年では単にビッグデータを扱うだけでなく、ビッグデータの分析まで可能なApache Mahout(Apache Hadoop用機械学習ライブラリ)やJubatus(大規模データを対象にリアルタイムで機械学習が行えるフレームワーク)なども登場しています。

ビッグデータ処理技術の分類

ビッグデータ処理は、その特性に合わせバッチ処理、ストリーム処理、アドホック処理の3種類に分類できます(表)。

【表】

表:ビッグデータ処理技術の比較

バッチ処理はストレージに保存されたデータを一括処理する方式です。処理の内容は実行前に利用者がプログラミングにより規定する必要があり、高い自由度で処理内容を記述できる反面、急な処理内容の変更に即応できない問題もあります。バッチ処理を実現する代表的なオープンソースソフトウェアはApache Hadoopになります。

ストリーム処理は大量に発生するデータをリアルタイムに分析する方式で、代表的なものにCEP(Complex Event Processing)があります。絶えず発生するデータを常時処理し異常値検出やアラート通知などを行うもので、大量に発生するデータの大部分を破棄し必要なデータのみを残す仕組みを採用しているため、過去のデータを用いて処理をやり直すことはできません。また、オープンソースのJubatusとCEPを組み合わせれば、高度な分析処理がリアルタイムで実行可能になります。

アドホック処理はストレージに保存されたデータをリアルタイムに近い速度で処理する方式です。アドホック処理は処理内容を実行直前に決定できる反面、処理内容はクエリーで表現可能な範囲に限定されます。アドホック処理はインシデント時のサーバログ分析などに力を発揮すると言われています。インシデント処理では事象発生後にサーバログの検索条件が決定するため、事前に処理内容の規定が必要なバッチ処理やストリーム処理では素早く対応できませんでした。近年注目されているインメモリデータベースの多くはアドホック処理に分類されます。

NTTデータでは、これら3つの分類をうまくひとつのプラットフォームとしてまとめるべく、「大規模リアルタイムデータ分析基盤」参考4の開発に注力しています。例えば、一般的なCEPでは破棄してしまうデータの蓄積を同時に行うことで過去データとの突き合わせを可能にする、といったことを視野に入れた分析基盤を作っています。

ビッグデータ活用の今後

ビッグデータ処理技術の存在は広く一般に知られるようになった感触がありますが、ビジネスで有効に利用されるのはこれからでしょう。既に保持しているデータをビジネスに活用するだけでなく、ビジネスを展開するために必要なデータを収集する「戦略的なデータ収集」にも注目していく必要があると考えています。

お問い合わせ