概要
情報通信技術(ITC)が高度に発展した今日,私たちは,さまざまなデータに囲まれて暮らしています。データがなければ,ありふれた日々の営みですらスムーズには行えません。そんな現代社会で必須の「データ」を扱う科学が,「データサイエンス」です。本書は,データサイエンスの概観がざっくりと把握できるよう,イラストや図をたくさん使って,やさしく解説した「入門の入門書」です。難しい数式は使っていないので,数式が苦手な方にもおすすめです。Excelでデータサイエンスを体験できるダウンロードデータ付き。
こんな方におすすめ
- 数式が苦手だが,データサイエンスを学んでみたい人
- データサイエンスを学ばなければならないが,数式が苦手な人
- データサイエンスについて,ざっくりとわかる入門書を探している人
目次
第1章 データサイエンスとは―データと社会―
- 1-1 データと社会
- 1)私たちの日常生活とデータ
- 2)データ化社会がやってきた
- 1-2 データサイエンスとデータサイエンティスト
- 1)データサイエンスはさまざまな定義が可能な科学
- 2)データ解析の4つの工程
- 3)データサイエンティストの仕事
第2章 データを知る―データ解析の第1工程―
- 2-1 データのタイプを分類する
- 1)調査データと非調査データ
- 2)ビッグデータと非ビッグデータ
- 2-2 データの特徴をつかむ
- 1)変数とデータ
- 2)量的データと質的データ
- 3)個票データと集計データ
- 2-3 データを準備する
- 1)調査によるデータ収集
- 2)Webによるデータ収集
- 2-4 データを整形する
- 1)データを整形するとは
- 2)完全データと不完全データ
- 3)外れ値
- 4)選択バイアス
第3章 データを読む―データ解析の第2工程―
- 3-1 データを集計し可視化する
- 3-2 データの情報を要約する
- 1)データの情報を得る
- 2)1変数のデータの特徴をつかむ
- 3)2変数の関係を見つける
- 4)多次元データの関係を把握する
- 5)結論を一般化するために
第4章 データを分類する―データ解析の第3工程―
- 4-1 似たもの同士を分類する
- 1)クラスター分析の考え方
- 2)クラスター分析で分類する
- 4-2 複数の変数を合成する
- 4-3 質的データを分類する
第5章 データから予測する―データ解析の第4工程―
- 5-1 データに基づいて予測する
- 5-2 予測のよさを評価する
- 1)重回帰分析の考え方
- 2)よい回帰モデルとは
- 3)さまざまな回帰診断
- 5-3 質的データを予測する
第6章 データの倫理を考える―データ化社会への警鐘―
- 6-1 データの倫理とは
- 1)データの倫理とデータ化社会
- 2)情報倫理の4つの原則とデータ倫理の規範例
- 3)分析の倫理
- 6-2 倫理違反の事件簿
第7章 データサイエンスとAI―ビッグデータがもたらしたデータ革命―
- 7-1 機械学習の基本
- 1)機械学習・深層学習・AI
- 2)データプレパレーション
- 3)選択アルゴリズム
- 4)パラメータチューニング
- 5)モデル選択
- 7-2 ニューラルネットワークとAI
- 1)AIとデータサイエンスの関係
- 2)ニューラルネットワークとは
- 3)ニューラルネットワークの構成要素
サポート
ダウンロード
付録データのダウンロード
(2021年5月21日更新)
本書(『絵と図でわかる データサイエンス』)をご購入頂いた方は,データサイエンスを体験するためのデータをこちらからダウンロードできます。
本書の下記の場所に記載されている文字を入力し,[ダウンロード]ボタンをクリックしてください。
解凍すると,フォルダの中にサンプルデータ(Excelブックファイル)と本書に掲載しきれなかった計算例の説明(PDFファイル)を参照することができます。
正誤表
本書の以下の部分に誤りがありました。ここに訂正するとともに,ご迷惑をおかけしたことを深くお詫び申し上げます。
P.59 図3-4の右表3-4-2
誤 |
|
正 |
|
P.59 左の段の下から5行目
誤 |
この集計結果を見ると、「商品718」は、男性でこの商品を買った人が2人(男性客の約7%)、女性で50人(女性客の約91%)となっており、 |
正 |
この集計結果を見ると、「商品718」は、男性でこの商品を買った人が12人「(男性客の48%)、女性で73人(女性客の約97%)となっており、 |
P.70:図3-17の偏差の式 左辺第1項
P.77:図3-25の相関係数の計算式 下段の式
誤 |
11.2×113.1 |
正 |
11.2×112.4 |
P.77:図3-25の共分散の計算式 分子
誤 |
416.7(全3か所) |
正 |
400(全3か所) |
P.92:図4-9-1
ただしい図は次の通りです。
正 |
|
P.98:図4-13の横軸ラベル
P.128:図5-15「仮説の採択」の対立仮説の下の説明文
誤 |
P-値が有意水準(5%)より小さい |
正 |
真の回帰係数は0ではない |
P.132:右段の記述の上から7行目
P.133:左段の記述の下から3行目
P.133:右段の記述の下から11行目
誤 |
残差が2.16と-2.14を示す |
正 |
残差が2.16,-2.14,2.49を示す |
P.136:図5-23の→Yに対応する部分
P.140:図5-27の下段の計算式の第1行目
誤 |
Y=-9.720+0.246X1+0.246X2 |
正 |
Y=-9.720+0.246X1+0.026X2 |
P.146:最上段の小見出し
P.149:図6-7の図中(上段の図)の見出し
P.149:図6-7の図中(下段の図)の見出し
P.170:図7-9の図中(下段の図)の右の箱