NTT DATA

DATA INSIGHT

NTTデータの「知見」と「先見」を社会へ届けるメディア

絞り込み検索
キーワードで探す
カテゴリで探す
サービスで探す
業種で探す
トピックで探す
キーワードで探す
カテゴリで探す
サービスで探す
業種で探す
トピックで探す
background-image-careers
2013年10月3日技術ブログ

データサイエンティストが理解すべきビッグデータのタイプ

企業・団体において情報活用を推進する立場にあるデータサイエンティストは、ビッグデータの概念をデータタイプの観点で理解しておく必要があります。これにより「ビジネス部門からの要求をアナリティクスの観点で紐解き、IT部門に対して適切な情報提供指示を出すこと」ができるようになります。

ビッグデータのタイプ

図のように、ビッグデータには3つのタイプが混在しています。これらを情報活用の視点で捉えるとそれぞれの特徴が見えてきます。

【図】

図:ビッグデータのタイプ

大規模システムログは、「ずっと前からビッグデータだった」という領域です。Webのアクセスログや決済のトランザクション、POS(Point Of Sales)などがこの領域の代表的なデータ種類です。特徴は、多くのケースでデータ量が膨大過ぎ、全件データが扱えなかった点にあります。ビジネス部門からすれば「やりたいことはあったが、実現できなかった」領域であり、分析目的が比較的明確なケースが多いので、情報活用の中では手を付けやすい領域だと言えます。
データサイエンティストが注力すべき事項は、IT部門と連携し適切な分析・実行環境の整備と運用がなされるように働きかけることです。

センサーデータは、GPSや加速度、温度センサーなどの機器が発信するログデータです。これまでのログデータは、顧客が取引を行う、Webページをクリックするなど、何かしらのアクションを起点としてログが生成されるデータが大半でした。しかしセンサーは、主に決められた「時間」でログが発生するという比較的「新しいデータソース」です。情報活用上の特徴は以下の二つです。一つ目は「状況に変化があっても無くてもデータが発生してしまう」という点です。二つ目は「分析目的が混在している」点です。例えば、「機器や車などの現在地を知りたい」というような「状況を把握したいケース」と、「センサーのデータを行動プロセスと捉える」などして、「原因を探りたいケース」です。

センサーデータは目的に応じ、分析手法、データ処理方式を変える必要があります。また発信可能データに制限があり、目的が定まらないと必要な情報の取得すらできないケースもあります。データサイエンティストはまずビジネス部門と議論を重ね「分析目的」を整理し、その上でIT部門とデータ取得方法について調整を行う必要があります。

ライフログは、まだ「定義すら曖昧」な世界です。データ種類としてはGPSや、SNS、Blogなどのソーシャルデータが含まれます。この領域に対する市場の期待はこれまでの「行動結果」から、「原因、動機への踏込み」にあると言えます。現実は現状取得できるライフログデータが多くの場合外部データであり企業内のデータと密に結合できないため、傾向分析に留まるケースが多く、まだ発展途上の分野だと言えます。

この領域はビジネス部門の期待も高く、またイメージが先行しがちな分野です。データサイエンティストは、まず一般的なソーシャルデータ活用に関する知識は取得するよう努力すべきです。その上で自社のデータとどのような接点で結合が可能か、ビジネス部門から要求が来る前に検証しておき、社内で地に足の着いた議論ができるよう準備しておくことが望ましいと考えられます。

情報活用の実現と定着化に向けて

情報活用に本格的に取り組まれる企業は増えていますが、情報活用基盤はまだ発展途上の段階です。そのため企業内の情報活用の鍵となるデータサイエンティストにはビジネスアナリティクス、IT基盤、(加えて組織調整)全てのスキルが必要とされているのが現状で、負担も大きくなっています。
NTTデータは、構想立案、基盤構築から、情報活用業務の立上げ、データサイエンティストの育成に至るまで、パートナーとしてサポートします。

お問い合わせ