Apache Sparkとは
Apache Spark(以下Spark)は、大量データを高速に並列分散処理できるオープンソースのデータ処理フレームワークです。
Apache HadoopのMapReduceよりも高速で、バッチ処理・ストリーム処理・機械学習など幅広い用途に対応します。
データ加工や試行錯誤を繰り返す分析業務にも適しており、MLlibなどのライブラリを標準提供しています。
Sparkの特長
Sparkは大量データに対し高速な並列分散処理を実現します。Sparkはデータソースからデータを読みだしたあと、ストレージやネットワークのI/Oが極力少なくなるように処理します。このため、Sparkは同じデータに対する変換処理が連続するケースや、機械学習における学習処理のように複数回繰り返し処理を行う処理にも適します。また、Sparkの高速な処理機構を活かしストリーム処理を行うこともできます。
業務処理への適用
業務処理への適用業務処理を行う場合は、大量データから特定のカラムや条件に合致するレコードだけを取り出し、さまざま々な加工を施し、最終的に集計を行うような処理を実装することになります。販売/顧客管理や料金計算、在庫管理などさまざまな業務でこのような処理が行われます。日々大量のデータを処理したり、次第にデータ量が増えていくようなケースでは、Sparkのスケールアウト可能な特長が生かされます。
ストリーム処理への適用
時々刻々と生まれるデータを低レイテンシで処理する「ストリーム処理」も、Sparkの適用ケースのひとつです。例えば、ウェブサービスのログをほぼリアルタイムに集計して顧客に情報提供するために用いた事例、大量に生み出されるセンサーデータなどを集計・分析する事例などがあります。Sparkをストリーム処理に活用する際のメリットには以下のようなものが挙げられます。
機械学習への適用
Sparkは、異常検知やレコメンデーションなど多様な機械学習ユースケースに対応します。大量データの探索・分析や試行錯誤を単一マシンで行うのは困難ですが、Sparkなら並列分散処理と豊富なAPIにより効率的に実現可能です。さらにMLlibを標準搭載し、データ加工から学習まで一貫した処理を提供します。
NTTデータのSpark が選ばれる理由
100+
NTTデータが手掛けた実績
NTTデータでは、コンサルティング、アーキテクチャ設計、構築、運用において、累計100件以上の実績を有しております。
1500+
NTTデータが対応したサポート問い合わせの件数
Sparkの基礎から応用、データ処理や機械学習の活用方法に関する質問まで、サポート窓口にお問い合わせいただいた質問に数多く対応した実績を有しております。
商品ラインナップ
NTTデータのサービスと一体で、または単独のサービスとしてデータの活用/処理の企画段階から運用段階までをトータルに支援します。
Sparkコンサルティングサービス
お客さまが保有する多種多様なデータの活用し、新たな価値を生み出すために、専門技術者がご支援いたします。
提案支援、システム化コンサルティング、設計書レビューなど、まずはご相談ください。
Spark評価支援サービス
実機を用いてSparkを評価したいというお客さまを、専門技術者がご支援いたします。
検証方法のご提案~結果の分析、チューニング観点のアドバイスなどを行います。
Spark構築サービス
十数~数千台の構築経験を活かして、専門技術者がSparkシステムの構築を実施します。
最適な機器選びからチューニングまで、トータルにご支援いたします。
Sparkサポートサービス
Sparkの保守契約です。基本サポート内容はメールベースの技術問い合わせ・故障問い合わせ対応です。
保守プロダクトは、Hadoop、Spark、Kafkaをはじめとするオープンソースソフトウェアです。
オプションとしてオンサイトの故障対応も実施します。ご希望の方はお問い合わせください。
Spark教育サービス
「社内にSpark技術者を育成したい」等、プライベートセミナをご希望の方はお問い合わせください。
ライブラリ
業界・技術トレンドや展望を、NTTデータが提供するホワイトペーパーやインサイト動画などでご覧ください。
補足・商標
- 記載されている会社名、商品名、サービス名等は、各社の登録商標または商標です。