概要
近年はビッグデータを分析し,ビジネスに活かすのは当たり前の時代となりました。今後IoTやAIなどの活用が期待される中,データを分析するだけではなく,データを集める・溜める・活用することが重要になってきています。本書は一般的なインターネット事業を展開する企業において,ビッグデータ分析システムをしっかり本番システム化する基本知識を図とともにわかりやすく解説しています。
こんな方におすすめ
- ビッグデータの全体像を理解し,ビジネスや開発に応用したい人
目次
1章 ビッグデータ分析の全体像
- 01 ビッグデータと分散処理
〜インターネットの普及によるデータ量の増加〜
- 02 非構造化データの増加と機械学習
〜テキスト,音声,画像データなどの分析〜
- 03 ビッグデータ分析システム
〜分散処理と機械学習を駆使してデータを利益に変える〜
- 04 企業のビッグデータ活用段階
〜ビッグデータ分析はスモールスタートで始める〜
- 05 ビッグデータ分析を活用するための三つの役割
〜データビジネス,サイエンス,そしてエンジニアリング〜
- 06 エンジニアリングの希少価値
〜実証実験はできても本番システム化できていない〜
2章
ビッグデータ分析システムのアーキテクチャ
- 01 アーキテクチャの全体像
〜データの収集・蓄積・活用〜
- 02 データの生成・収集
〜事業システムで生成し分析システムに収集する〜
- 03 データ蓄積
〜データレイクとデータウェアハウス〜
- 04 データ活用
〜データを意思決定・利益向上に利用〜
3章
分散処理の基礎
- 01 ボトルネック解析
〜性能問題対応の基本〜
- 02 ボトルネック以外の性能問題考慮点
〜メモリの枯渇,ボトルネックがないのに遅い〜
- 03 分散ストレージ
〜ディスクのボトルネックを解消する技術〜
- 04 分散計算
〜プロセッサのボトルネックを解消する技術〜
- 05 分散システムのネットワーク
〜ネットワークのボトルネックにならないために〜
- 06 リソースマネージャ
〜分散処理を支えるリソース管理〜
- 07 分散処理の作り方
〜Hadoop,自前開発,クラウドサービス〜
4章
機械学習の基礎
- 01 機械学習
〜数値ベクトルに変換されたデータを処理する関数〜
- 02 データの準備と前処理
〜機械学習の開発プロセス(前編)〜
- 03 モデル推定とシステム化
〜機械学習の開発プロセス(中編)〜
- 04 本番リリースとエンハンス
〜機械学習の開発プロセス(後編)〜
- 05 ディープラーニング
〜機械学習ブームの火付け役〜
- 06 機械学習ツール
〜エンジニアでも知っておくべき主要ツールを紹介〜
- 07 サイエンスとエンジニアリングの役割分担
〜システム化やデータ準備等行うことはたくさんある〜
5章
ビッグデータの収集
- 01 バッチデータ収集とストリームデータ収集
〜データ収集の種類〜
- 02 ファイルデータ収集とファイルフォーマット
〜ファイル形式のデータを収集する〜
- 03 SQLによるデータ収集
〜データベースからのデータ収集(前編)〜
- 04 データ出力や更新ログ同期によるデータ収集
〜データベースからのデータ収集(後編)〜
- 05 APIデータ収集とスクレイピング
〜その他のバッチデータ収集〜
- 06 バッチデータ収集の作り方
〜ETL製品を利用するか自前で作るか〜
- 07 分散キューとストリーム処理
〜ストリームデータ収集の全体像〜
- 08 ストリームデータ収集における分散キュー
〜分散キューの特性を理解する〜
- 09 プロデューサー,分散キュー,コンシューマー
〜ストリームデータ収集の作り方〜
- 10 データ構造変更対応
〜データ構造はビジネスの成長とともに変わる〜
6章
ビッグデータの蓄積
- 01 データレイクとデータウェアハウス
〜生データと分析用のデータは別に用意する〜
- 02 アナリティックDB
〜オペレーショナルDBとアナリティックDBの違い〜
- 03 列指向フォーマット
〜列方向にデータを圧縮して分析処理を高速化する技術〜
- 04 SQL on Hadoop
〜アナリティックDBの選び方(前編)〜
- 05 DWH製品
〜アナリティックDBの選び方(後編)〜
7章
ビッグデータの活用
- 01 データマート
〜目的別に加工されたデータ〜
- 02 アドホック分析
〜自由にデータを分析して意思決定する〜
- 03 アドホック分析環境の構築
〜データ利用者サポートやリソース管理が必要〜
- 04 データ可視化
〜誰でもデータをもとに意思決定できるようにする〜
- 05 データアプリケーション
〜インターネット事業会社での活用事例〜
8章
メタデータ管理
- 01 全体像と静的メタデータ
〜メタデータ管理の全体像(前編)〜
- 02 動的メタデータとメタデータ管理実現方法
〜メタデータ管理の全体像(後編)〜
- 03 データ構造管理
〜どのように定義されたデータか〜
- 04 データリネージ管理
〜そのデータはどこから来てどこに行くのか〜
- 05 データ鮮度管理
〜そのデータはいつ時点のデータなのか〜
サポート
正誤表
本書の以下の部分に誤りがありました。ここに訂正するとともに,ご迷惑をおかけしたことを深くお詫び申し上げます。
P.139 5行目
誤 |
結果をファイルを格納するスクリプトを |
正 |
結果をファイルに格納するスクリプトを |
P.23 11行目
誤 |
購入履歴テーブル対して、
|
正 |
購入履歴テーブルに対して、
|
P.102-104
P.87 3行目
誤 |
このような1次関数を用いた回帰を「重回帰分析」といい、
|
正 |
このような1次関数を用いた回帰を「線形回帰分析」といい、
|
P.21 表の内容
誤 |
|
正 |
|
「データビジネス担当」と「エンジニアリング担当」の役割についての説明が逆になっていました。