この記事を読むのに必要な時間:およそ 1 分
※「序」より引用
このたび『Rで楽しむベイズ統計入門[しくみから理解するベイズ推定の基礎]』という本を技術評論社から上梓することになりました。ここでは,その序文から,ベイズ統計とはどういうものかを説明した部分をご紹介します。
確率予測と統計学
家を出るときに天気予報を見て,「雨の降る確率は30%です」などと聞いて,それなら念のため傘を持って行こうと考えます。
2016年のアメリカ大統領選のときは,定評あるネイト・シルバー(Nate Silver)の選挙予測によれば,直前のトランプ候補の当選確率は30%程度でした。それにもかかわらず,トランプ候補が勝ち,選挙予測の難しさを見せつけられました。
このように,われわれの身の回りには確率予測がたくさんあります。こういった確率は統計学を使って求められそうです。
ところが,伝統的な統計学をいくら勉強しても,ある仮説が正しい確率を求めるやりかたは出てきません。伝統的な統計学では,「もし全体の半数がトランプ支持者であれば,ランダムな10人に質問して2人がトランプ支持であると答える確率は約4.4%である」ということは教えてくれますが,「ランダムな10人に質問して2人がトランプ支持であると答えた場合,全体の半数以上がトランプ支持者である確率はどれだけか」という問いはそもそもしないことになっています。
ベイズ統計学と従来の統計学の違い
このような問いに答えるには,伝統的な統計学の枠を超えたベイズ統計学を使わなければなりません。
ベイズ統計学は,イギリスの牧師・アマチュア数学者ベイズ(Thomas Bayes,1702-1761年)や,フランスの有名な数学者ラプラス(Pierre-Simon Laplace,1749-1827年)によって作られましたが,その後ずっと放置され,近年になって見直されつつあります。
見直された主な理由は,複雑な問題でもコンピュータで解きやすいことですが,結果が「確率」の形で求められるので解釈が簡単なこともベイズ統計学の特徴です。
これに対して,従来の統計学の結果の解釈は簡単ではありません。例えば従来の統計学でいう「5%水準で有意」は,「確率95%で正しい」という意味ではまったくありませんし,得られたデータから求めた「95%信頼区間」は,「真の値を確率95%で含む区間」ではありません。これらは,従来の統計学が難しすぎるために生じた誤解です。ベイズ統計学なら,「確率95%で正しい」と言ったり,「真の値を確率95%で含む区間」を求めたりすることが可能です(ただし,その「確率」の意味は吟味を要します)。
ただ,この「確率」の意味とも関連しますが,ベイズ統計学は恣意的・主観的ではないかという根強い疑念もあります。この疑念に正直に答えるためには,従来の統計学との立ち位置の違いや重なる部分を詳しく調べ,結果を比較して,いわばベイズ統計学をキャリブレート(目盛合わせ)する必要があります。
本書の特徴
本書は,このようなベイズ統計のしくみの基礎の部分を,ごまかさず丁寧に説明するのに苦心しました。
どうしても数式が出てきてしまいますが,現在の高校数学の範囲(つまり行列を使わない範囲)に限定しました。一般のベイズ統計学の本では省略されているような式変形も省略せず書きましたが,必要なのは結果だけだと割り切ることができれば,式変形は読み飛ばしてかまいません。
計算には,Rというオープンソースの統計計算ソフトを使っています。ほとんどのベイズ統計の計算はRの命令を何行か打ち込むだけでできます。
巻末に,新進気鋭のデータサイエンティスト瓜生真也さん・牧山幸史さんによるRのインストールから統計計算の基本までをコンサイスにまとめた解説が付いています。Rは初めてというかたも,ぜひ本書でベイズ統計の楽しさを味わってください。