目次
嘘っぱちの効果とそれを見抜けないデータ分析
- 思い込みによる意思決定の蔓延
- 「バイアス」によって見誤る効果
- 因果推論と計量経済学のビジネス適用
- 本書の構成
- 想定する読者
- サンプルコードとサポート
1 章 セレクションバイアスとRCT
- 1.1 セレクションバイアスとは
- 1.1.1 効果
- 1.1.2 潜在的な購買量の差
- 1.1.3 誤った施策の検証
- 1.2 RCT(Randomized Controlled Trial)
- 1.2.1 本当の「効果」と理想的な検証方法
- 1.2.2 RCTによる検証
- 1.3 効果を測る理想的な方法
- 1.3.1 母集団と推定
- 1.3.2 ポテンシャルアウトカムフレームワーク
- 1.3.3 ポテンシャルアウトカムフレームワークによる介入効果の推定
- 1.3.4 平均的な効果
- 1.3.5 平均的な効果の比較とセレクションバイアス
- 1.3.6 介入の決まり方がセレクションバイアスの有無を決める
- 1.3.7 RCTを行った疑似データでの比較
- 1.3.8 有意差検定の概要と限界
- 1.4 R によるメールマーケティングの効果の検証
- 1.4.1 RCTを行ったデータの準備
- 1.4.2 RCTデータの集計と有意差検定
- 1.4.3 バイアスのあるデータによる効果の検証
- 1.5 ビジネスにおける因果推論の必要性
- 1.5.1 RCTの実行にはコストがかかる
- 1.5.2 セレクションバイアスが起きる理由
- 1.5.3 ビジネスにおけるバイアスのループ
- 参考文献
2 章 介入効果を測るための回帰分析
- 2.1 回帰分析の導入
- 2.1.1 単回帰分析
- 2.1.2 効果分析のための回帰分析
- 2.1.3 回帰分析による効果の推定
- 2.1.4 回帰分析における有意差検定
- 2.1.5 Rによるメールマーケティングデータの分析(回帰編)
- 2.1.6 効果検証のための回帰分析で行わないこと
- 2.2 回帰分析におけるバイアス
- 2.2.1 共変量の追加による効果への作用
- 2.2.2 脱落変数バイアス(OVB)
- 2.2.3 R によるOVBの確認
- 2.2.4 OVB が与えてくれる情報
- 2.2.5 Conditional Independence Assumption
- 2.2.6 変数の選び方とモデルの評価
- 2.2.7 Post treatment bias
- 2.3 回帰分析を利用した探索的な効果検証
- 2.3.1 PACESによる学費の割引券配布の概要
- 2.3.2 R による回帰分析の実行
- 2.3.3 私立学校への通学と割引券の利用についての分析
- 2.3.4 割引券は留年を減らしているか?
- 2.3.5 性別による効果差
- 2.3.6 分析のまとめ
- 2.4 回帰分析に関するさまざまな議論
- 2.4.1 予測と効果推定
- 2.4.2 制限被説明変数(Limited Dependent Variable)
- 2.4.3 対数を利用した回帰分析
- 2.4.4 多重共線性
- 2.4.5 パラメータの計算
- 参考文献
3 章 傾向スコアを用いた分析
- 3.1 傾向スコアのしくみ
- 3.1.1 傾向スコアのアイデア
- 3.1.2 傾向スコアの推定
- 3.2 傾向スコアを利用した効果の推定
- 3.2.1 傾向スコアマッチング
- 3.2.2 逆確率重み付き推定
- 3.2.3 より良い傾向スコアとは
- 3.2.4 傾向スコアと回帰分析の比較
- 3.2.5 マッチングとIPW の差
- 3.3 機械学習を利用したメールマーケティング施策の効果推定
- 3.3.1 データの作成
- 3.3.2 RCTと平均の比較
- 3.3.3 傾向スコアを用いた分析
- 3.4 LaLonde データセットの分析
- 3.4.1 NSW の概要とデータの準備
- 3.4.2 RCTによる結果の確認
- 3.4.3 回帰分析による効果の推定
- 3.4.4 傾向スコアによる効果の推定
- 参考文献
4 章 差分の差分法(DID)とCausalImpact
- 4.1 DID(差分の差分法)
- 4.1.1 DID が必要になる状況
- 4.1.2 集計による効果検証とその欠点
- 4.1.3 DID のアイデアを用いた集計分析
- 4.1.4 回帰分析を利用したDID
- 4.1.5 DID における標準誤差
- 4.1.6 平行トレンド仮定(Common Trend Assumption)と共変量
- 4.2 CausalImpact
- 4.2.1 DID の欠点
- 4.2.2 CausalImpactのアイデア
- 4.3 大規模禁煙キャンペーンがもたらすタバコの売上への影響
- 4.3.1 データの準備
- 4.3.2 DID の実装
- 4.3.3 CausalImpactの実装
- 4.3.4 分析結果の比較
- 4.4 不完全な実験を補佐する
- 4.4.1 DID のアイデアを用いた分析が使えないとき
- 参考文献
5 章 回帰不連続デザイン(RDD)
- 5.1 ルールが生み出すセレクションバイアス
- 5.1.1 回帰不連続デザインのしくみ
- 5.1.2 集計によるセレクションバイアスの確認
- 5.2 回帰不連続デザイン(RDD)
- 5.2.1 線形回帰による分析
- 5.2.2 非線形回帰による分析
- 5.2.3 メールによる来訪率の増加効果を分析する
- 5.3 nonparametric RDD
- 5.3.1 nonparametric RDD のしくみ
- 5.3.2 R によるnonparametric RDD の実装
- 5.4 回帰不連続デザインの仮定
- 5.4.1 Continuity of Conditional Regression Functions
- 5.4.2 non-manipulation
- 5.4.3 LATEの妥当性
- 5.5 ビジネスにおける介入割り当てルール
- 5.5.1 ユーザセグメントへの介入
- 5.5.2 Uber による価格変更の分析
- 参考文献
付録 RとRStudioの基礎
- A.1 R およびRStudio のダウンロード
- Rのインストール
- Rの起動と終了
- RStudio のインストール
- A.2 RStudio の基本
- パネルの役割
- プロジェクトと作業ディレクトリ
- A.3 R プログラミングの初歩
- オブジェクト
- ベクトル
- 関数
- データフレーム
- 行列
- パッケージの利用
- 作業(ワーク)スペース
- 因果推論をビジネスにするために
- 因果推論を活用できる環境とは
- より正しい意思決定をするために
- 高次元の共変量を扱うためのR パッケージ
- より強い因果効果を得るために
- 参考文献
- 索引