機械学習 はじめよう

第5回 正規分布[後編]

この記事を読むのに必要な時間:およそ 1.5 分

統計的機械学習では解きたい問題にあわせて様々な分布を扱いますが,中でももっとも重要なのは,今回紹介する正規分布です。

まずはウォーミングアップ代わりに,前回のおさらいです。前回は,確率変数の値を実数のような「連続な数」で表す「連続確率」について説明しました。

連続確率は,サイコロの目ような「離散確率」とは異なり,⁠確率密度関数」というものを導入し,⁠確率密度関数 f(x) の積分値=面積=確率」として定義します。確率を「点」に対して考えるといろいろと都合が悪いので,⁠範囲」に対して考えるのでしたね。

分布が確率であるためには「足して1になる」などの重要な条件がありましたが,連続確率にも同様に「重要な2条件」があります。

  • 確率密度関数 f(x) の値は常に0以上
  • 「取り得る値の全範囲」にわたって,確率密度関数 f(x) を積分すると1になる。つまり p(全範囲)=1 となる

重要なポイントは,f(x) の値自体は確率ではない,積分(面積)を求めると初めて確率になる,という点です。

f(x) は相対的な可能性を表す数であって,だから適当な関数 f(x) を考えた後に,定数倍して p(全範囲)=1 となるように調整することで確率密度関数を得ることができるのでしたね。この調整を「正規化」と言い,この後早速登場します。

確率密度関数の考え方はとてもよくできていて,離散確率との本質的な違いをうまく吸収し,使い勝手の違いを「Σを∫に置き換えるだけ」で済ませられるのでした。第2回で紹介した,離散確率についての「加法定理と乗法定理」も,⁠Σを∫に置き換える」と連続確率版を得ることができました。

また,確率分布の「平均(期待値)」「分散」についても紹介しました。こちらは本文の中でもう一度出てくる時に復習しましょう。

正規分布

さて,いきなり天下りですが,以下のグラフで表される確率密度関数 f(x) で定義される連続な確率分布 p(X) を考えてみましょう。

画像

このグラフは中心が高く,両側は徐々に下がった後なだらかになって,軸に沿う形で長く伸びています。

この形はよく「釣鐘型」と呼ばれるのですが,⁠釣鐘」というと日本人にはお寺の鐘の印象が強いでしょうから,裾が長いこの形をなぜ釣鐘というんだろう,と不思議に思うかもしれません。実は,元の英語では「ベルカーブ」⁠つまり口が開いたベルを伏せた形に見立てて名付けられたため,不自然なのは日本語訳なんですよね。……と,話がわき道にそれてしまいました。

確率密度関数の値は,さきほどのおさらいでも触れましたが,⁠相対的な可能性」を表します。つまり,確率密度関数がこのようなグラフになるということは,中心付近の値は非常に発生しやすく,そこからある程度離れると急速に発生しにくくなる,そういう連続確率を表している確率密度関数であるということがわかります。

このようなグラフを描く確率密度関数は以下の式で与えられます。

exp は自然対数 e=2.718... の指数関数です。e^{-\frac12 x^2}と書いてもいいのですが,字が小さくなって読みにくいからか,機械学習でそちらの書き方を見掛けることは少ないようです。

expの性質から f(x)≧0 がわかります。Z は「全範囲で積分して1」の条件を満たすように適当に調整します。このような Z を「正規化定数」と言います。

Z を求めるには,f(x) から 1/Z を取り除いて積分をして計算します。この積分の計算には少々パズル的な方法を使う必要があるのですが,詳細は省略します。

画像

求めた Z で積分の両辺を割れば,⁠f(x) の積分=1」になってくれるのはわかります。こうして確率密度関数が「全範囲にわたる積分=1」を満たす正規化定数を求めることを,⁠確率密度関数の正規化」と言います。そして,このようにして構成された釣鐘型の連続確率分布が「正規分布」です。

19世紀の偉大な数学者カール・フリードリヒ・ガウスが正規分布を使った研究を行ったことから「ガウス分布」とも呼ばれます。最初に正規分布というものを導入したのはド・モアブルなのですが,最初に考えた人とは違う人の名前が定着してしまうのは科学ではよくあることですね(苦笑)⁠

「正規分布」はよい性質を数多く持っており,もっともよく利用される連続な確率分布の一つです。その性質や,より一般的な定式化について,このあと順に確認していきましょう。

正規分布の平均と分散

確率変数の「平均」⁠期待値)「分散」を前回紹介しました。復習を兼ねて,もう一度振り返っておきましょう。

確率変数 X とその確率分布 p(X) が確率密度関数 f(x) によって与えられるとき,X の平均 μ と分散 σ2とは以下の式で定義されるものでした。

ここでは連続確率の場合の定義式を示していますが,離散確率の場合は積分の∫が和をとる記号のΣに置き換わるのでしたね。

それではこの定義式を使って,先ほどの正規分布の平均と分散を求めてみましょう。

平均が0,分散が1という,とてもキリのよい分布だったのですね。

この平均0,分散1の釣鐘型を平行移動&横に引き延ばしつつ,正規化定数を調整することで,与えられた平均と分散を持つ,より一般的な正規分布を考えることができます。

そのようにして構成した平均が μ,分散が σ2 である正規分布の確率密度関数は以下のようになります。

ただし

画像

ここでの最大のポイントは,⁠平均」「分散」というたった2つの値が与えられるだけで,正規分布の全体が決まるということです。

そのおかげで,全く未知の確率分布に対しても,とりあえず平均と分散だけでもわかっていれば,正規分布と仮定して試しに計算してみるということができます。これは機械学習を含む統計的分野では結構ポピュラーな手法となっています。

それどころか,平均と分散すらわかっていないのに「とにかく正規分布だとしたら」と仮定して,平均と分散を推定する,という手法もあるくらいです。

著者プロフィール

中谷秀洋(なかたにしゅうよう)

サイボウズ・ラボ(株)にてWebアプリ連携や自然言語処理を中心に研究開発を行いながら,英単語タイピングゲーム iVocaをサービス提供している。

URLhttp://d.hatena.ne.jp/n_shuyo/
Twitterhttp://twitter.com/shuyo

コメント

コメントの記入