機械学習 はじめよう

第2回 確率の初歩

この記事を読むのに必要な時間:およそ 7.5 分

確率の加法定理・乗法定理

これらの計算方法を公式の形でまとめたのが「確率の加法定理・乗法定理」です。

確率の加法定理

2個の確率変数 X, Y について,その同時確率 p(X,Y) と周辺確率 p(X) の間に次の等式が成り立つ。

画像

右辺のΣは,確率変数Yのとりうる値すべてにわたって足しあわせる。

確率の乗法定理

2個の確率変数 X, Y について,その同時確率 p(X,Y),条件付き確率 p(Y|X),周辺確率 p(X) の間に次の等式が成り立つ。

p(X, Y) = p(Y|X) p(X)

乗法定理は,条件付き確率と周辺確率から同時確率を求めるだけでなく,そのうち2つから残る1つの確率を求めることができることに注意してください。実際 p(Y|X) の計算では,周辺確率と同時確率を使って条件付き確率を求めていました。

加法定理のことは「確率分布を周辺化する」とか「p(X,Y) からYを積分消去する」とかいった言い方をすることも多いです。

また,条件付き確率と同時確率は見た目が似ていますが,同時確率から条件付き確率を求めることができるのに対し,条件付き確率だけから同時確率を求めることはできません。つまり,条件付き確率は同時確率より情報量が少なくなっています。

このことは,機械学習のいろいろな演算を直感的に理解するのに効いてくるので,憶えておくと役に立ちます。

実は統計的機械学習は,この2つの定理を繰り返し繰り返し用いて最終的に求めたい確率を導くのが基本手順になります。確率の加法定理と乗法定理を掛け算の九九と同じくらい空気のように使いこなせるようになれば,機械学習はマスターしたも同然!! ……っていうのはさすがにちょっとだけ言い過ぎですね。すいません。

事後確率とベイズの公式

同時確率 p(X,Y) に対する条件付き確率は,Y の値を与えた場合の p(X|Y) と,X の値を与えた場合の p(Y|X) の2通りが考えられます。X と Y が全く同時に起きる場合(例えば2個のサイコロを振ったそれぞれの目など⁠⁠,この2つの条件付き確率はどちらも無理なく考えることができます。

一方で,X が先に起きるべきである,あるいは X がモデルのパラメータで Y は観測値,などの「 X の値を決め,その後初めて Y の値を決めることができる」モデルでは,Y の値を与えたときには X の値はすでに決まってなければならないため,p(X|Y) は何の「確率」かわかりません。

確率を「どれくらい起こりうるかを表す値」と定義するうちは,そのような値は存在しないことになってしまいます。ひとまず後先のことはおいといて,このような条件付き確率 p(X|Y) を「事後確率」または「事後分布」と呼び,形式的に話を進めることにしましょう。

事後確率 p(X|Y) は,形の上ではただの条件付き確率の一つです。そこで乗法定理を Y についてと,X についての2通り使うことで,次の等式が成り立ちます。

p(X, Y) = p(X|Y) p(Y) = p(Y|X) p(X)

2項目と3項目を p(Y) で割ると,⁠ベイズの公式」と呼ばれる次の等式が導かれます。

画像

これは機械学習の教科書で非常によく用いられる公式ですが,確率変数が2個のわかりやすい問題ならともかく,もっと複雑なモデルで使う場合は間違いやすいです。

ここで導いたように,同時確率を2通りに展開して毎回考える方が間違いにくく,ブラックボックスにならず,⁠ベイズの公式ってどういう順番だったっけ?」とならずに済むので,おすすめです。

しかし,⁠事後確率」なんて気持ち悪いものを認めてしまって本当に大丈夫かと,心配になりますか?

ここで少し歴史の話でもしてみましょう。⁠事後確率」について最初に言及したのは18世紀の数学者,トーマス・ベイズです。

高校数学での確率のような「どのくらい起こりうるか」という考え方では都合が悪いことに気づいたベイズは,確率を「どれくらい信用できるか(もっともらしいか⁠⁠」を表す量(信念の度合い)として広く再定義します。すると,さきほどの p(Y|X) も「与えられた Y は,どの X から導かれたと信じられるか」を表す値となり,事後確率が意味のある存在になったのです。

数学者としてベイズを紹介しましたが,ベイズの本職は実は牧師でした。いわゆる「市井の数学者⁠⁠,アマチュアだったのです。一方のラプラスは,当事すでに数学者として大きな実績を持っていました。彼の名前で発表したら,もっと大きな問題になると考えたのでしょう(なにしろ,今でも一部では論争が続いているそうですから……⁠⁠。

その論争に参加するのも別の意味で楽しそうですが,ここではやはり「どれくらい信用できるか(もっともらしいか⁠⁠」を新しい確率の定義と認めることにしましょう。新しい定義によって様々な不確かさを足したり掛けたり比較したりできる「確率」で表せるようになり,機械学習の力は大きく広がるのですから。

機械学習に限らず,様々な統計的手法の発展に大きく貢献したその新しい確率は,ベイズの名を冠して「ベイズ的確率」と呼ばれています。現在では,様々な分野でベイズの名前がついた技術が用いられています。アマチュア数学者だったベイズ自身は,何百年も後に,自分の名前がこれほど多くの分野の多くの人の口にのぼるとは,まさか夢にも思わなかったでしょうね。

著者プロフィール

中谷秀洋(なかたにしゅうよう)

サイボウズ・ラボ(株)にてWebアプリの連携や自然言語処理を中心に研究開発を行いながら,英単語タイピングゲームiVocaをサービス提供している。参加した懇親会はいつもなぜかRESTとExcelの話になる。