機械学習 はじめよう

第10回 ベイズ確率

この記事を読むのに必要な時間:およそ 4 分

これから前回「線形回帰」を確率化した「ベイズ線形回帰」に進んでいく予定ですが,今回はその中で大活躍する「ベイズ確率」です編注)⁠⁠ベイズ確率」は本連載の第2回で一度登場していますが,そのときは名前の紹介だけでした。

まずは「ベイズ確率」とは何で,なぜそれを使うのか,というところから見ていきましょう。

編注
本来であればベータ分布を実践する回をお届けする予定でしたが,諸事情により,理論編のお話を先に進めさせていただきます。引き続き,ご愛読いただければ幸いです。

「確率」を求める

高校で確率の授業を受けたことがある人であれば,一度くらいは次のようなことを思ったことはありませんか?

「コインを投げたら表が出る確率は1/2とか,サイコロを振ったらそれぞれの目が出る確率が1/6とかよく言うけど,どうやってそれを確かめるの?」

「確率1/6といっても,6回振って各目が1回ずつ出たりしないし,仮に出たからといって,それはたまたまそうなっただけかもしれないしなあ」

具体的に,次のようなケースを考えてみましょう。

今ここに,どう見ても表が出る確率がぴったり1/2になるとは思えないほど歪んだコインがあったとします。試しにこのコインを5回投げてみたら,そのうち2回表が出ました。このときこのコインの表が出る確率は2/5と言ってもいいでしょうか。

いや,5回ではさすがに少なすぎるので,さらに20回投げたら7回表が出ました。このとき「コインの表が出る確率は (2+7) / (5+20) = 9/25 に変わった」と言えるでしょうか。コインは変わってないのに,表が出る確率が変わってもいいのでしょうか。

それとも,最初の2/5は間違いで,9/25の方が正解でしょうか。では,もう100回投げたら? 何回投げたら正解になるのでしょうか。

コインを無限回投げることができたら,正解を求めることもできるでしょう。しかし,そのようなことはできるわけありませんから,⁠正しい確率」を調べるのはムリ,とあきらめるしかないのでしょうか。

合格する「確率」

話は変わりますが,学生のときに試験を受けた後,友達にどれくらい自信あるかを聞かれて,⁠うーん,7割くらいの確率で受かってるかなあ」ということを言ったり,言われたりしたことはありませんでしたか?

そして,クラスで一番賢いヤツに聞いてみたら同じ答えだったりして,⁠やった! 合格率8割に上がった!! これで勝つる!!!!」とか叫んでしまったりしませんでしたか? え?下がったことならいっぱいある?

ここで言及している「確率」は,⁠コインの表が出る確率は1/2」=「コインを投げたら2回に1回の割合で表が出る」という「高校数学の確率」とは明らかに異なっています。

「合格率7割」とは,⁠試験を10回受けたら7回合格する」わけではありません。⁠今回の試験の結果について,7割くらいの確実さで合格が期待できると思っている」という自信のほどを表しているわけです。その時の「7割」「8割」という数字は,経験などから導いた主観的な予測であり,数字に厳密な根拠はありません。

「確率」という言葉をそんないい加減に使っちゃあダメだ!! ……と言う人も中にはいます。第一,合否なんて試験が終了した時点ですでに決まっていて,単にまだ採点と発表を待っているだけなのだから,その結果に確率があるなんておかしいだろう,ましてや「できるヤツと答えが一緒だった(違ってた)⁠という理由で確率が変わるなんてありえない,とか言われたらちょっと納得しそうになります。

でもそういう細かいところは目をつむって,さきほどの「歪んだコインの確率」に今の話をあてはめてみると,おもしろい展開が待っています。

「歪んだコインの確率」は決まっているけれど,まだ知らない(合否の結果と同じく)⁠5回投げてみたら2回表が出た。⁠確率2/5」のようだ。7割くらいの自信。追加で20回投げたら7回表が出た。⁠確率2/5」の自信は4割くらいに下がって,⁠確率9/25」の自信が5割くらいに上がるかな(できるヤツの答えを聞いた時と同じく)⁠注1

この考え方なら,⁠コインの確率が変わるのは変」⁠何回投げればいいのか」という先ほどの問題が解決できます。変わるのはコインの確率ではなく「確率は2/5だろうという自信」の方であり,また新しい情報を得ることによってそれが変わるのはとても自然なことのように思えます。

しかしさすがに今のままでは,数字に根拠が無さ過ぎます。どうすれば「自信の確率」をきちんと計算することができるでしょうか。

注1
実際には「コインの確率」は0から1の間の連続値を取るので,⁠自信の分布」も連続ですが,ここではイメージで説明しています。

ベイズ確率,ふたたび

実はこの「自信の確率」は,連載の第2回「信念の度合い」と呼んでいた「ベイズ確率」と同じものなのです。

「確率のルール」を使って「自信(信念)⁠を形式的に計算してみたら,なかなかうまくいくことをベイズさんが発見しました。とはいえ,いわゆる「高校の確率」とはやはり明らかに異なりますから,それを「ベイズ確率」と呼ぶことにしたわけです。

確率のルールを忘れている人のために,確率のルールを再掲しておきます。見ても思い出せなかったり,事後分布ってなに?という人は,本連載の第2回第4回で復習してくださいね。

離散確率:
  • 確率の値は0以上1以下
  • すべての取り得る値の確率の合計は1
連続確率:
  • 確率密度関数 f(x) の値は常に0以上
  • 「取り得る値の全範囲」にわたって,関数 f(x) を積分すると1になる。つまり p(全範囲)=1 となる
確率の加法定理

2個の確率変数 X, Y について,その同時確率 p(X,Y) と周辺確率 p(X) の間に次の等式が成り立つ。

  • p(Y) が離散確率の場合:

  • p(Y) が連続確率の場合:

確率の乗法定理

2個の確率変数 X, Y について,その同時確率 p(X,Y),条件付き確率 p(Y|X),周辺確率 p(X) の間に次の等式が成り立つ。

p(X, Y) = p(Y|X) p(X)

確率のルールはたったこれだけ。改めて見直してみても,とても少ないですね。

著者プロフィール

中谷秀洋(なかたにしゅうよう)

サイボウズ・ラボ(株)にてWebアプリ連携や自然言語処理を中心に研究開発を行いながら,英単語タイピングゲーム iVocaをサービス提供している。

URLhttp://d.hatena.ne.jp/n_shuyo/
Twitterhttp://twitter.com/shuyo

コメント

コメントの記入