詳解 Apache Spark

[表紙]詳解 Apache Spark

紙版発売
電子版発売

B5変形判/352ページ

定価3,960円(本体3,600円+税10%)

ISBN 978-4-7741-8124-0

電子版

→学校・法人一括購入ご検討の皆様へ

この本の概要

Apach Sparkはより高速にビッグデータを処理するための分散処理フレームワークです。 SQLインターフェースや機械学習などの機能が標準で組み込まれ,バッチ処理だけでなくストリーミング処理や対話的な処理にも対応できるため,さまざまなシーンのデータ分析を強力にサポートします。

本書では,Sparkの分散処理の基礎であるRDDのしくみ,Sparkを構成する各コンポーネントの機能を理解するところからはじめます。 さらにSparkクラスタの構築と運用,構造化データを処理するためのDataFrame APIとSpark SQL,ストリーミング処理のためのSpark Streaming,機械学習ライブラリMLlib,グラフ処理のためのGraphXの各コンポーネントの実践的な利用方法を基礎から徹底的に解説します。

また基本機能の解説だけではなく,多くの実践的な利用例を通してSparkを理解し,アプリケーション作成ができることを目指す構成となっています。「5章 DataFrame APIとSpark SQL」では構造化データを分析するためのインタフェースを利用し,実際に公開されているオープンデータの分析を通してDataFrame APIやSpark SQLの使い方が学べます。「6章 Spark Streaming」ではSparkのストリーミング処理によるアクセスログの集計処理やTwitterのデータ抽出処理の例を通して,Spark Streamingのアプリケーション作成について学べます。「7章 MLlib」ではSparkの機械学習ライブラリによる好みの映画のレコメンドや住宅価格の予測やスパムメッセージの検出する方法を学べます。「8章 GraphX」ではSparkのグラフ処理ライブラリによるユーザの行動ログのグラフ化やアソシエーション・ルールによるアイテムレコメンドの例を通して,GraphXアプリケーションの実装方法が学べます。 SparkはScala,Java,Python,Rのプログラミングインタフェースを提供していますが,本書ではScalaで解説をします。

こんな方におすすめ

  • データ分析者,データサイエンティスト,インフラエンジニア

著者プロフィール

下田倫大(しもだのりひろ)

株式会社ブレインパッドに所属。SNS企業にてHadoopを用いたソーシャルグラフの解析やレコメンドエンジン開発,広告商品の開発を行う。その過程でマーケティングデータの活用に興味を持ち2013年8月ブレインパッドに入社。同社が開発するプライベートDMP「Rtoaster」の外部DSP/DMP連携や,運用型広告最適化ツール「L2Mixer」の開発を担当。2015年7月より,プロダクトにとらわれず同社のビジネスを技術的側面からサポートする業務に従事している。最近の興味はアナリティクスとエンジニアリングの融合による価値創出と組織づくりについて考えること。本書の第1章,第2章,第3章の執筆を担当。
Twitter:@rindai87
facebook:https://www.facebook.com/rindai87


師岡一成(もろおかかずしげ)

株式会社ブレインパッドに所属。新卒入社したSIerで主に小売・流通業の基幹システムの構築に携わる。Hadoopやデータ分析に興味を持ち2012年に株式会社ブレインパッドに入社。Hadoopを用いたログ解析システムや,プライベートDMP「Rtoaster」の広告連携・セグメンテーションツールの開発を担当。現在は全社的な技術支援業務を行っている。本書の第1章,第2章,第3章の執筆を担当。
GitHub:ka2ush19e


今井雄太(いまいゆうた) / factory

Hortonworksに所属。2011年に広告配信システムのレポート作成をHadoopを使ってみたのがビッグデータエコシステムとの出会い。2012年から約3年,AWSのソリューションアーキテクトとしてAmazon Elastic MapReduceやAmazon Kinesis,Amazon DynamoDBなどを主な担当。ゲームや広告のワークロードで必要となる分析や集計などをAWS上でいかに快適に実現するかというテーマのもとに活動。2015年にビッグデータつながりでHortonworksに転職,引き続きHadoopやSparkをより便利に利用するためのサービスを仕事にしています。本書の第4章,Appendixの執筆を担当。
Twitter:@imai_factory
facebook:https://www.facebook.com/imai.factory


石川有(いしかわゆう)

株式会社リクルートテクノロジーズ アドバンスドテクノロジーラボに所属。株式会社ミクシィ在籍時にHadoopやHiveなどの分散処理システムに興味を持ち,分析基盤構築からアプリケーション設計,データサイエンス業務まで幅広くこなす。現在は,Apache Sparkの特に機械学習コンポーネントMLlibの開発に従事。本書の第5章の執筆を担当。
GitHub:yu-iskw


田中裕一(たなかゆういち)

日本IBMに所属。Web系・広告系企業にて,Hadoop/Spark/KafkaなどHadoopエコシステムを利用した広告システム(DMP)・行動分析基盤・レコメンド基盤の全体アーキテクチャ設計やプログラミング,最適化,行動解析を担当。Spark/Hadoopエコシステムを筆頭にOSSを組み合わせた大規模なアーキテクチャの設計に従事。2016年にSpark/Hadoopを多様な業種に広げるため,活動の場をIBMに移す。最近はビッグデータを利用した新しい価値創造と,ビッグデータを意識したワークフローの統合・再構築について妄想してます。本書の第6章の執筆を担当。
facebook:https://www.facebook.com/tanaka.y.p
GitHub:yuichi-tanaka


小宮篤史(こみやあつし)

スマートニュース株式会社に所属。大学・大学院で計算機工学を学んだ後に新卒入社したSIerで,レコメンドエンジンの研究開発業務に従事。以来,Web系エンジニアとしてのキャリアを積む傍らで統計や機械学習を学ぶ。現在はスマートニュース株式会社にて,広告配信システムのエンジニアとして最適化や機械学習を用いた機能開発に従事する。本書の第7章の執筆を担当。
Twitter:@komiya_atsushi
GitHub:komiya-atsushi


加嵜長門(かさきながと)

株式会社DMM.comラボに所属。大学院やスタートアップ企業で,マルチメディアデータベースを対象とした検索やレコメンドアルゴリズムの研究を行う。現在はDMM.comラボにおいて,Sparkを用いた行動解析やレコメンド基盤の研究開発を行う。特にグラフDBやグラフ処理を活用したレコメンドアルゴリズムについて模索中。本書の第8章の執筆を担当。
GitHub:KasakiNagato