Apache Spark入門 動かして学ぶ最新並列分散処理フレームワーク

Apache Sparkは多数のコンピュータを並列で動かして高速処理を実現する技術です。大量データのバッチ処理やストリーム処理・機械学習など、ビッグデータの分野での活用が期待されるオープンソースソフトウェアです。
NTTデータは2013年頃から Apache Spark への取り組みを始め、2015年より「Spark構築・運用ソリューション」として皆様にサービスを展開しています。本書は、Apache Sparkへの取り組みを主導するNTTデータのメンバが執筆した、初歩的な環境構築からアプリケーションの書き方までをカバーした入門書です。

「Apache Spark入門 動かして学ぶ最新並列分散処理フレームワーク」の目次

  • 第1章Apache Sparkとは
  • 第2章Sparkの処理モデル
  • 第3章Sparkの導入
  • 第4章Sparkアプリケーションの開発と実行
  • 第5章基本的なAPIを用いたプログラミング
  • 第6章構造化データセットを処理する - Spark SQL -
  • 第7章ストリームデータを処理する -Spark Streaming-
  • 第8章機械学習を行う - MLlib -
  • Appendix

    • A.GraphXによるグラフ処理
    • B.SparkRを使ってみる
    • C.機械学習とストリーム処理の連携
    • D.Web UIの活用
発行
翔泳社
ISBN
978-4-798-14266-1
定価
3,200円(税抜)
発行日
2015年10月28日
サイズ
B5変・320ページ
著者
株式会社NTTデータ 猿田 浩輔、土橋 昌、吉田 耕陽、佐々木 徹、都築 正宜
下垣 徹 監修