機械学習 はじめよう

第4回 正規分布[前編]

この記事を読むのに必要な時間:およそ 4 分

今回と次回では前後編に分けて,統計においてもっともよく使われる確率分布である「正規分布」のお話をします。

第2回・第3回の復習

最初に,前回までのおさらいを簡単にしておきましょう。

まず確率を定義するものとして,確率変数 X と確率分布 p(X) を紹介しました。これが「確率」であるためには,以下の2つの重要な条件を満たしている必要がありました。

  • 確率の値は0以上1以下
  • すべての取り得る値の確率の合計は1

これらの条件は,今後機械学習を学んでいく上で,常に意識しておかないといけません。今回も使いますよ。

それから,確率変数が複数ある場合の「同時確率」⁠条件付き確率」⁠周辺確率」⁠そして「事後確率」を導入し,⁠確率の加法定理と乗法定理」という2つの定理と,⁠ベイズの公式」を導きました。加法定理と乗法定理については,今回も使いますのでその時に確認しましょう。

最後に,⁠条件付き独立性(ナイーブベイズ)⁠を仮定した文書分類モデルを紹介し,第3回では恩田さんによる実装例をご覧いただきました。今回は使いませんが,確率変数の独立性はとてもよく用いられる概念なので,これもしっかり覚えておいてください。

離散な確率と連続な確率

ところで前回までは明言していませんでしたが,確率変数の「取り得る値」が有限個(正確には「可算個」⁠であることを暗黙のうちに前提としていました。

このような「取り得る値が有限個」⁠または整数など「バラバラな数」で表すことができる確率を「離散確率」と言います。これまで例としてあげていた「サイコロを振って X が出る確率」「文章に単語が含まれる確率(含まれるとき X=1,含まれないとき X=0 )⁠は有限個の場合しかとらない「離散確率」です。

一方,⁠目的地に X 分で着く確率」というとき,X は3分ぴったりかもしれませんし,3.5分(3分30秒)かもしれません。3.5714...分などいくらでも細かい時間の可能性だってあります。このような,確率変数の値を実数で表す確率を「連続確率」と言います。

ところで,なぜ「離散確率」「連続確率」を分けて考える必要があるのでしょう? わざわざ分けているということは,何かが違っているはずです。

そこで,先ほどの連続確率の例「X 分で着く確率」を,あの「確率の重要な2条件」に当てはめてみましょう。話を簡単にするために,Xを3分から4分までに限定し,さらにその間ならどの時刻でも同じ確率で到着する,と仮定します。

まず仮定から,3分で着く確率と4分で着く確率は等しいです。

p(X=3) = p(X=4)

その中間の3.5分の確率も等しくなります。

p(X=3) = p(X=3.5) = p(X=4)

さらにそれぞれの中間の3.25分と3.75分の確率も等しくなります。

p(X=3) = p(X=3.25) = p(X=3.5) = p(X=3.75) = p(X=4)

実数はいくらでも間を分割できますから,この調子で X=3 と X=4 の間を無限回分割しましょう。

「どの時刻でも同じ確率で到着する」という仮定から,これらはすべて等しい確率を持つことがわかります。その確率を q とします。

ここで確率の条件「すべての確率の合計は1」を考えます。今,無限個の q を得ていますが,⁠すべての確率」には足りないかもしれませんので,その合計は1以下になるはずです。つまり,q × (無限個) ≦ 1 とわかります。しかし,そのような q があるとすれば q = 0 のみです!

したがって,確率 p(X) は常に0であるという結論になってしまいました。何を間違えてしまったのでしょうか……。

著者プロフィール

中谷秀洋(なかたにしゅうよう)

サイボウズ・ラボ(株)にてWebアプリの連携や自然言語処理を中心に研究開発を行いながら,英単語タイピングゲームiVocaをサービス提供している。参加した懇親会はいつもなぜかRESTとExcelの話になる。

コメント

コメントの記入