図解即戦力シリーズ図解即戦力
ビッグデータ分析のシステムと開発がこれ1冊でしっかりわかる教科書

2019年11月7日紙版発売
2019年11月7日電子版発売

渡部徹太郎　著

A5判／232ページ

定価2,398円（本体2,180円＋税10%）

ISBN 978-4-297-10881-6

電子版

本書のサポートページサンプルファイルのダウンロードや正誤表など

→学校・法人一括購入ご検討の皆様へ

書籍の概要

この本の概要

近年はビッグデータを分析し，ビジネスに活かすのは当たり前の時代となりました。今後IoTやAIなどの活用が期待される中，データを分析するだけではなく，データを集める・溜める・活用することが重要になってきています。本書は一般的なインターネット事業を展開する企業において，ビッグデータ分析システムをしっかり本番システム化する基本知識を図とともにわかりやすく解説しています。

こんな方におすすめ

ビッグデータの全体像を理解し，ビジネスや開発に応用したい人

01　ビッグデータと分散処理
　〜インターネットの普及によるデータ量の増加〜
02　非構造化データの増加と機械学習
　〜テキスト，音声，画像データなどの分析〜
03　ビッグデータ分析システム
　〜分散処理と機械学習を駆使してデータを利益に変える〜
04　企業のビッグデータ活用段階
　〜ビッグデータ分析はスモールスタートで始める〜
05　ビッグデータ分析を活用するための三つの役割
　〜データビジネス，サイエンス，そしてエンジニアリング〜
06　エンジニアリングの希少価値
　〜実証実験はできても本番システム化できていない〜

2章　
ビッグデータ分析システムのアーキテクチャ

01　アーキテクチャの全体像
　〜データの収集・蓄積・活用〜
02　データの生成・収集
　〜事業システムで生成し分析システムに収集する〜
03　データ蓄積
　〜データレイクとデータウェアハウス〜
04　データ活用
　〜データを意思決定・利益向上に利用〜

3章
分散処理の基礎

01　ボトルネック解析
　〜性能問題対応の基本〜
02　ボトルネック以外の性能問題考慮点
　〜メモリの枯渇，ボトルネックがないのに遅い〜
03　分散ストレージ
　〜ディスクのボトルネックを解消する技術〜
04　分散計算
　〜プロセッサのボトルネックを解消する技術〜
05　分散システムのネットワーク
　〜ネットワークのボトルネックにならないために〜
06　リソースマネージャ
　〜分散処理を支えるリソース管理〜
07　分散処理の作り方
　〜Hadoop，自前開発，クラウドサービス〜

4章
機械学習の基礎

01　機械学習
　〜数値ベクトルに変換されたデータを処理する関数〜
02　データの準備と前処理
　〜機械学習の開発プロセス（前編）〜
03　モデル推定とシステム化
　〜機械学習の開発プロセス（中編）〜
04　本番リリースとエンハンス
　〜機械学習の開発プロセス（後編）〜
05　ディープラーニング
　〜機械学習ブームの火付け役〜
06　機械学習ツール
　〜エンジニアでも知っておくべき主要ツールを紹介〜
07　サイエンスとエンジニアリングの役割分担
　〜システム化やデータ準備等行うことはたくさんある〜

5章
ビッグデータの収集

01　バッチデータ収集とストリームデータ収集
　〜データ収集の種類〜
02　ファイルデータ収集とファイルフォーマット
　〜ファイル形式のデータを収集する〜
03　SQLによるデータ収集
　〜データベースからのデータ収集（前編）〜
04　データ出力や更新ログ同期によるデータ収集
　〜データベースからのデータ収集（後編）〜
05　APIデータ収集とスクレイピング
　〜その他のバッチデータ収集〜
06　バッチデータ収集の作り方
　〜ETL製品を利用するか自前で作るか〜
07　分散キューとストリーム処理
　〜ストリームデータ収集の全体像〜
08　ストリームデータ収集における分散キュー
　〜分散キューの特性を理解する〜
09　プロデューサー，分散キュー，コンシューマー
　〜ストリームデータ収集の作り方〜
10　データ構造変更対応
　〜データ構造はビジネスの成長とともに変わる〜

6章
ビッグデータの蓄積

01　データレイクとデータウェアハウス
　〜生データと分析用のデータは別に用意する〜
02　アナリティックDB
　〜オペレーショナルDBとアナリティックDBの違い〜
03　列指向フォーマット
　〜列方向にデータを圧縮して分析処理を高速化する技術〜
04　SQL on Hadoop
　〜アナリティックDBの選び方（前編）〜
05　DWH製品
　〜アナリティックDBの選び方（後編）〜

7章
ビッグデータの活用

01　データマート
　〜目的別に加工されたデータ〜
02　アドホック分析
　〜自由にデータを分析して意思決定する〜
03　アドホック分析環境の構築
　〜データ利用者サポートやリソース管理が必要〜
04　データ可視化
　〜誰でもデータをもとに意思決定できるようにする〜
05　データアプリケーション
　〜インターネット事業会社での活用事例〜

8章
メタデータ管理

01　全体像と静的メタデータ
　〜メタデータ管理の全体像（前編）〜
02　動的メタデータとメタデータ管理実現方法
　〜メタデータ管理の全体像（後編）〜
03　データ構造管理
　〜どのように定義されたデータか〜
04　データリネージ管理
　〜そのデータはどこから来てどこに行くのか〜
05　データ鮮度管理
　〜そのデータはいつ時点のデータなのか〜

サポートページ
サンプルファイルのダウンロードや正誤表など
書籍の概要
目次
お問い合わせ

著者プロフィール

渡部徹太郎（わたなべてつたろう）

東京工業大学大学院情報理工学研究科にてデータ工学を研究。株式会社野村総合研究所にて大手証券会社向けのシステム基盤を担当し，その後はオープンソース技術部隊にてオープンソースミドルウェア全般の技術サポート・システム開発を担当。その後，株式会社リクルートテクノロジーズに転職し，リクルート全社の横断データ分析基盤のリーダーをする傍ら，東京大学での非常勤講師やビッグデータ基盤のコンサルティングを実施。また，日本AWSユーザー会のビッグデータ支部を設立した。現在は，JapanTaxi株式会社にてデータプラットフォームを担当している。代表著書は「RDB技術者のためのNoSQLガイド」。

この本に関連する書籍

［エンジニアのための］データ分析基盤入門データ活用を促進する！プラットフォーム＆データ品質の考え方

システムとデータの両面にスポットを当て，データ分析基盤の整備/運用/活用の指針をまとめた入門書。データ分析の中心にある「データ分析基盤」を取り巻く環境は，大...
図解即戦力 Google Cloudのしくみと技術がこれ1冊でしっかりわかる教科書

本書は，Googleのクラウドコンピューティングサービス「Google Cloud」（旧称：Google Cloud Platform，GCP）のしくみや関連技術をフルカラー図解した解説書です。エン...
［増補改訂］ビッグデータを支える技術 ――ラップトップ1台で学ぶデータ基盤のしくみ

「ビッグデータ」をテーマに，データ分析基盤技術をまとめた解説書。 AIの発展，コンテナ技術の進歩をはじめ，ビッグデータを取り巻く技術が大きく変わり始めました。...
Google Cloudではじめる実践データエンジニアリング入門［業務で使えるデータ基盤構築］

AIやIoTが実用化フェーズに入りつつあるのみならず，デジタルトランスフォーメーション（DX）への注目の高まりによって，事業やサービスを取り巻くデータを分析・活用・...
図解即戦力 AIエンジニアの実務と知識がこれ1冊でしっかりわかる教科書

ITエンジニアと一言でいっても職種はさまざまで，その役割とスキルは多様化かつ細分化されています。その中でもAIエンジニアは，昨今のAI分野の発展とともに，ニーズが...
図解即戦力 Amazon Web Servicesのしくみと技術がこれ1冊でしっかりわかる教科書

Amazon Web Services（AWS）のしくみや関連技術についてわかりやすく解説する図解本です。エンジニア1年生，IT業界などへの転職・就職を目指す人が，AWS関連の用語，し...
図解即戦力　機械学習&ディープラーニングのしくみと技術がこれ1冊でしっかりわかる教科書

機械学習・ディープラーニングについて学ぶための，図解形式の解説書です。エンジニア1年生，機械学習関連企業への就職・転職を考えている人が，機械学習・ディープラー...
ビッグデータを支える技術 ――刻々とデータが脈打つ自動化の世界

多彩な技術の集合体。ビッグデータの今。スマホで買い物をして，翌日には届けてもらえる。たとえば，このような身近な場面でも，背後では決済/在庫管理/配送を...

図解即戦力シリーズ図解即戦力ビッグデータ分析のシステムと開発がこれ1冊でしっかりわかる教科書

書籍の概要

この本の概要

こんな方におすすめ

目次

1章 ビッグデータ分析の全体像

2章 ビッグデータ分析システムのアーキテクチャ

3章 分散処理の基礎

4章 機械学習の基礎

5章 ビッグデータの収集

6章 ビッグデータの蓄積

7章 ビッグデータの活用

8章 メタデータ管理