Apache Spark入門 動かして学ぶ最新並列分散処理フレームワーク
Apache Sparkは多数のコンピュータを並列で動かして高速処理を実現する技術です。大量データのバッチ処理やストリーム処理・機械学習など、ビッグデータの分野での活用が期待されるオープンソースソフトウェアです。
NTTデータは2013年頃から Apache Spark への取り組みを始め、2015年より「Spark構築・運用ソリューション」として皆様にサービスを展開しています。本書は、Apache Sparkへの取り組みを主導するNTTデータのメンバが執筆した、初歩的な環境構築からアプリケーションの書き方までをカバーした入門書です。
「Apache Spark入門 動かして学ぶ最新並列分散処理フレームワーク」の目次
- 第1章 Apache Sparkとは
- 第2章 Sparkの処理モデル
- 第3章 Sparkの導入
- 第4章 Sparkアプリケーションの開発と実行
- 第5章 基本的なAPIを用いたプログラミング
- 第6章 構造化データセットを処理する - Spark SQL -
- 第7章 ストリームデータを処理する -Spark Streaming-
- 第8章 機械学習を行う - MLlib -
-
Appendix
- GraphXによるグラフ処理
- SparkRを使ってみる
- 機械学習とストリーム処理の連携
- Web UIの活用
- 発行
- 翔泳社
- ISBN
- 978-4-798-14266-1
- 定価
- 3,200円(税抜)
- 発行日
- 2015年10月28日
- サイズ
- B5変・320ページ
- 著者
-
株式会社NTTデータ 猿田 浩輔、土橋 昌、吉田 耕陽、佐々木 徹、都築 正宜
下垣 徹 監修