書籍概要

[プロ野球でわかる!]はじめての統計学

著者
発売日
更新日

概要

統計分析の基本を,プロ野球の分析を通して学ぶ入門書です。多くの方がイメージしやすく,かつ分析に必要なデータを取得しやすいプロ野球の分析を題材にすることで,統計分析の手法や結果の考察方法を,初学者の方にもわかりやすく解説します。どのようにグラフ化すると傾向がつかみやすいのか,一見関連がわからない数値同士の相関をどのように見つけ出すのかなど,統計分析の基礎から実践までを,実際に分析を行いながら学びます。

こんな方におすすめ

  • 身近な野球のデータを利用してこれから統計学を学びたい方     

目次

  • はじめに
  • 謝辞
  • サンプルデータのダウンロード

第1章 データ分析がなぜ必要なのか──客観的な分析がもたらすもの

1.1 はじめに

  • 本書の目的
  • 本書の使い方
  • ビッグデータ時代の到来と統計学との付き合い方
  • 必要なツール
  • アドインの設定

1.2 統計学の概要

  • 統計学とは
  • 統計学が可能にすること
    • 仮定が正しいかを検証する
    • データを予測する

1.3 セイバーメトリクス──野球に導入された統計学

    • [Column]早すぎたセイバーメトリシャン
  • 経験則から統計学へのシフト
  • 新しい指標
  • 究極の目標と現実的な運用
  • なぜ野球からイノベーションは起こったのか
    • ビル・ジェームズの存在
    • データが充実している
    • 野球のデータの性質が統計解析に向いている

1.4 多領域への汎用性

第2章 データ分析の基礎知識──野球にちりばめられた記録の意味

2.1 数値が表すもの──そもそもデータとは何か

  • データの種類
    • 名義データ
    • 順序データ
    • 間隔データ
    • 比率データ
    • コンピュータはわかってくれない
    • [Column]やってしまいがちな誤用──順位と勝率

2.2 記述統計

  • 2つの統計学──記述統計と推測統計
  • 代表値──データを要約する
    • 平均値(Mean)
    • 中央値(Median)
    • 最頻値(Mode)
    • 代表値の使い分け

2.3 データの散らばりをつかむ

  • 分散と標準偏差──データの散らばりを数値化する
  • 四分位偏差
  • 度数分布表──データの全体像をつかむ
  • 正規分布──データの分布のカタチ

2.4 傑出度──データを変換しわかりやすくする

  • 3割打者はなぜ優れているのか
  • データの標準化
  • 非線形変換

2.5 まとめ

第3章 グラフの作成──データの可視化で見えてくること

3.1 データを可視化するメリット

  • 直感的にわかりやすい情報を示すことができる
  • 自らの直観・気付き・ひらめきを導くのを助ける

3.2 各種グラフの作成

  • 棒グラフ1──データ間の大きさの違いを比較する
    • チームの勝率を比較する
    • 「縦棒」「横棒」どちらを使うべきか
  • 棒グラフ2──データの内訳を比較する
    • チームのヒットの内訳を比較する
    • グラフの複製
  • 棒グラフ3──積み上げ式のグラフで内訳を比較する
    • チームのヒット数を比較する
    • その他の棒グラフ
  • 折れ線グラフ1──データの推移を表現する
    • 勝率の浮き沈みを表現する
  • 折れ線グラフ2──内訳・積み上げ式の折れ線グラフ
  • 散布図──2つのデータ間の関係を理解する
    • 2つのデータに関係がある場合
    • 3次元の散布図
    • 散布図の応用──モザイク図的活用法
  • 円グラフ──データの内訳をつかむ
    • 球種の内訳をつかむ
  • レーダー──複数のデータを一覧する
  • 箱ひげ図──複数の情報を一度に表現する
    • 打率の分布を比較する
    • 箱ひげ図を作成する

3.3 データを視覚化する際に気を付けること

  • 詰め込みすぎ
  • 印象操作

3.4 まとめ

第4章 母集団と標本──データを取り巻く誤差との付き合い方

4.1 データが示すものとは

  • どこまでを母集団と考えるか
  • 母集団と標本の関係
  • 母集団と標本の平均と分散
    • 母集団と標本の平均
    • 母集団と標本の分散
    • 標本誤差を小さくするには
  • 信頼区間
  • 比率を使った信頼区間の計算

4.2 幅をもってデータを見る

  • 打撃成績の信頼区間
  • 二項分布による成績の幅

4.3 誤差を評価する

    • [Column]1点差勝利の反動

4.4 まとめ

第5章 相関分析──2つのデータの関係性を数値化する

5.1 相関分析とは

5.2 相関関係とは

  • 相関係数の計算
  • 共分散
  • 共分散から相関係数へ
  • 順位相関
    • スピアマンの順位相関係数

5.3 相関係数の解釈

  • 相関係数から見る関係の強さ
  • 相関係数と散布図
  • 相関関係ではないが関連はあるケース
  • サンプルが少ないケースとはずれ値

5.4 野球における相関分析の適用例

  • 年度間相関
    • データの作成方法と情報源
  • 相関係数から見る勝利のために重要な指標
    • フォアボール
    • 送りバント

5.5 相関分析を行う際に気を付けること

  • 擬似相関
  • 相関関係が示すもの──因果関係と共変関係
  • データ分析の手始めとしての相関分析

5.6 まとめ

    • [Column]相関関係がなかったとき

第6章 統計検定──データの差に意味があるのかを調べる

6.1 統計検定とは何か

  • 統計検定の考え方──仮説検定
  • 有意水準(危険率)
    • 片側検定と両側検定
  • 判断を誤るリスク

6.2 t検定──2つのグループの平均値の比較

  • 分析のための準備──データの並び替え
  • t検定の実施
    • 等分散性の検定(F検定)
    • 等分散の場合のt検定
    • 不等分散の場合のt検定
  • t検定の計算方法
    • F検定
    • 等分散のt検定
    • 不等分散のt検定
  • 対応のあるt検定
    • 対応のあるt検定とは
    • 対応のあるt検定の計算

6.3 χ二乗検定──2つのグループの比率の比較

  • χ二乗検定の計算方法の解説と実施
  • CHISQ.TEST関数における計算

6.4 無相関検定──相関係数の有意性を調べる

  • 無相関検定を行う方法
  • 無相関検定の計算方法

6.5 まとめ

    • [Column]これからの統計検定──アメリカ統計学会からの提言

第7章 分散分析──より複雑な関係を分析する

7.1 分散分析とは

  • 分散分析のポイントと用語
    • 要因と水準
    • 独立変数と従属変数
  • 分散分析の実施
    • 分析ツールを使った分散分析
    • 分散分析の計算
    • 分散分析の計算過程
    • 繰り返し分散分析を行う場合
    • 多重比較

7.2 2要因の分散分析

  • 2要因の分散分析の手順
  • 交互作用
  • 2要因の分散分析のしくみと計算
  • 2要因の分散分析の実施
    • 主効果の検定
    • 交互作用の検定
    • 個々の水準の差の検定
  • 結果の表記

7.3 まとめ

    • [Column]常識や先入観にとらわれないために

第8章 回帰分析──あるデータから別のデータを予測する

8.1 回帰分析とは

  • 予知ではなく予測
  • 回帰分析のポイント
    • 説明変数と目的変数
    • [Column]予測的中の落とし穴
    • 予測式の計算──最小二乗法
    • 決定係数
  • 回帰分析の実施
    • 分析ツールを使った回帰分析
    • 回帰分析の計算

8.2 重回帰分析

  • 重回帰分析のポイント
    • 分析の前に
    • 偏回帰係数と標準回帰係数
    • 分析ツールを使った重回帰分析
    • 重回帰分析の計算
    • 説明変数の有意性の検定
  • 重回帰分析の目的と予測式
    • 多重共線性の問題
    • 交互作用

8.3 説明変数が質的データの場合の回帰分析,重回帰分析

  • 質的データが2つの場合
  • 質的データが3つ以上の場合

8.4 まとめ

Appendix 野球における未解決問題

A.1 より高度な評価指標を求めて

  • 打撃指標
  • 運の影響

A.2 数値化が難しいテーマ

  • 勝負強さ
  • 捕手のリード
  • 監督の采配

A.3 環境の変化

A.4 最新のデータが正解ではない

  • おわりに
  • 索引
  • プロフィール

サポート

ダウンロード

(2017年3月10日更新)

以下のサンプルコードファイルをダウンロードできます。圧縮ファイルをダウンロードしていただき,適宜解凍してご利用ください。

ダウンロード
サンプルコードファイル(statistics_guide_sampledata.zip)

正誤表

本書の以下の部分に誤りがありました。ここに訂正するとともに,ご迷惑をおかけしたことを深くお詫び申し上げます。

(2023年11月27日最終更新)

P.34 「四分位偏差」の見出しおよび1~3段落行目

四分位偏差

 データを大きい順番に並べ4分割したときの、上から25%と下から25%にあたる値を四分位偏差(Quartile Deviation:Q)と言います。ちょうど50%にあたる中央値とセットで示すことで、中央値±25%とデータ全体の半分の分布を示すことができます。
 この分位というのは、データを分割した際の境目にあたる値のことを言います。四分位だとデータを4分割した境目なのでデータの小さいほうから25%、50%、75%の値が四分位となります。このうち25%の値を第1四分位(Q1)、50%の値を第2四分位(Q2=中央値)、75%の値を第3四分位(Q3)と呼びます。この分割数を10にした十分位数(decile)、分割数を100にした百分位数(パーセンタイル:percentile)というものもあります。
 四分位偏差の関係を図で表したものが図2.9です。1から100までの数値を並べたときの25%、50%、75%の値を確認できるでしょうか。この図のように1から100までの数値であれば四分位偏差の位置を考えるまでもありませんが、実際に集めたデータを小さい順に並び替えて四分位偏差の値を探すのは大変ですので、Excelで計算するのがよいと思います。
四分位数

 データを大きい順番に並べ4分割したときの、上から25%と下から25%にあたる値を四分位数quartile points)と言います。ちょうど50%にあたる中央値とセットで示すことで、中央値±25%とデータ全体の半分の分布を示すことができます。
 この分位というのは、データを分割した際の境目にあたる値のことを言います。四分位だとデータを4分割した境目なのでデータの小さいほうから25%、50%、75%の値が四分位となります。このうち25%の値を第1四分位(Q1)、50%の値を第2四分位(Q2=中央値)、75%の値を第3四分位(Q3)と呼びます。この分割数を10にした十分位数(decile)、分割数を100にした百分位数(パーセンタイル:percentile)というものもあります。
 四分位数の関係を図で表したものが図2.9です。1から100までの数値を並べたときの25%、50%、75%の値を確認できるでしょうか。この図のように1から100までの数値であれば四分位数の位置を考えるまでもありませんが、実際に集めたデータを小さい順に並び替えて四分位数の値を探すのは大変ですので、Excelで計算するのがよいと思います。

P.34 図2.9

四分位偏差の各指標の位置付け
四分位数の各指標の位置付け

P.35 上から3段落目

 この関数で四分位偏差だけではなく、最小値と中央値、最大値まで計算できるので便利な関数です。データの散らばりを表す値としては標準偏差のほうが使われることが多いのですが、25%という分割方法が直観的にわかりやすいというメリットが四分位偏差にはあります。
 この関数で四分位数だけではなく、最小値と中央値、最大値まで計算できるので便利な関数です。データの散らばりを表す値としては標準偏差のほうが使われることが多いのですが、25%という分割方法が直観的にわかりやすいというメリットが四分位数にはあります。

P.70 「箱ひげ図 ── 複数の情報を一度に表現する」の1段落1行目

四分位偏差と中央値
四分位数と中央値

P.70 「打率の分布を比較する」の2段落3行目

四分位偏差の値となります。
四分位数の値となります。

P.71 「箱ひげ図を作成する」の2段落2行目

四分位偏差と中央値
四分位数と中央値

P.106 本文中の図版

p106_a_誤.png

p106_b_正.png

商品一覧