詳解 Apache Spark
2016年4月29日紙版発売
2016年4月29日電子版発売
下田倫大,師岡一成,今井雄太,石川有,田中裕一,小宮篤史,加嵜長門 著
B5変形判/352ページ
定価3,960円(本体3,600円+税10%)
ISBN 978-4-7741-8124-0
書籍の概要
この本の概要
Apach Sparkはより高速にビッグデータを処理するための分散処理フレームワークです。 SQLインターフェースや機械学習などの機能が標準で組み込まれ,バッチ処理だけでなくストリーミング処理や対話的な処理にも対応できるため,さまざまなシーンのデータ分析を強力にサポートします。
本書では,Sparkの分散処理の基礎であるRDDのしくみ,Sparkを構成する各コンポーネントの機能を理解するところからはじめます。 さらにSparkクラスタの構築と運用,構造化データを処理するためのDataFrame APIとSpark SQL,ストリーミング処理のためのSpark Streaming,機械学習ライブラリMLlib,グラフ処理のためのGraphXの各コンポーネントの実践的な利用方法を基礎から徹底的に解説します。
また基本機能の解説だけではなく,多くの実践的な利用例を通してSparkを理解し,アプリケーション作成ができることを目指す構成となっています。「5章 DataFrame APIとSpark SQL」では構造化データを分析するためのインタフェースを利用し,実際に公開されているオープンデータの分析を通してDataFrame APIやSpark SQLの使い方が学べます。「6章 Spark Streaming」ではSparkのストリーミング処理によるアクセスログの集計処理やTwitterのデータ抽出処理の例を通して,Spark Streamingのアプリケーション作成について学べます。「7章 MLlib」ではSparkの機械学習ライブラリによる好みの映画のレコメンドや住宅価格の予測やスパムメッセージの検出する方法を学べます。「8章 GraphX」ではSparkのグラフ処理ライブラリによるユーザの行動ログのグラフ化やアソシエーション・ルールによるアイテムレコメンドの例を通して,GraphXアプリケーションの実装方法が学べます。 SparkはScala,Java,Python,Rのプログラミングインタフェースを提供していますが,本書ではScalaで解説をします。
こんな方におすすめ
- データ分析者,データサイエンティスト,インフラエンジニア
この本に関連する書籍
-
AWSエキスパート養成読本[Amazon Web Servicesに最適化されたアーキテクチャを手に入れる!]
クラウドサービスの代名詞とも言えるAWS(Amazon Web Services)。いまや,Web業界だけでなく基幹系システムや業務システムでも合理的な選択肢として避けて通ることので...
-
ITエンジニアのための機械学習理論入門
現在話題となっている機械学習(Machine Learning)のツールやライブラリは内部でどのような計算をしているのか? 計算で得られた結果にはどのような意味があり,どの...
-
データサイエンティスト養成読本 機械学習入門編
ビッグデータ分析をきっかけとして「機械学習」に注目が集まり,ビジネス利用への検討がはじまっています。しかし,実際に「機械学習」を理解しているエンジニアや分析...