ナイーブベイズによる文書分類
最後に,
X を
gihyo.
簡単のため
p(X=dev) = 0.652
p(X=admin) = 0.348
ただし,
ここで条件付き確率を使うと,
そこで,
p(Y1=1|X=dev) = 0.271
p(Y1=1|X=admin) = 0.136
条件付き確率 p(Y1=1|X=dev) は
確かに p(Y1=1|X=dev) > p(Y1=1|X=admin) となっていますね。
同じように,
p(Y2=1|X=dev) = 0.172
p(Y2=1|X=admin) = 0.523
それでは
この条件に対応する確率変数は Y1=0, Y2=1 ですが,
文章を書くときに,
この一連の流れが,
ベイズの公式を使うと事後確率を求める式を得られますが,
p(X, Y1, Y2)
= p(X|Y1, Y2) p(Y1, Y2)
= p(Y1, Y2|X) p(X)
第2式と第3式から,
式の右辺を計算できるか考えてみましょう。
分子にある p(Y1, Y2|X) について,
p(X) と p(Y1|X) たちはわかっていましたから,
次に分母の p(Y1, Y2) ですが,
具体的には,
ただし,
それでは最後に,
まず X のそれぞれの値について,
p(Y1=0, Y2=1|X=dev) p(X=dev)
= (1 - 0.271) * 0.172 * 0.652
= 0.082
p(Y1=0, Y2=1|X=admin) p(X=admin)
= (1 - 0.136) * 0.523 * 0.348
= 0.157
分母はこれを周辺化したもの,
p(Y1=0, Y2=1)
= p(X=dev, Y1=0, Y2=1) + p(X=admin, Y1=0, Y2=1)
= 0.082 + 0.157
= 0.239
そして,
p(X=dev|Y1=0, Y2=1)
= p(Y1=0, Y2=1|X=dev) p(X=dev) / p(Y1=0, Y2=1)
= 0.082 / 0.239
= 0.343
p(X=admin|Y1=0, Y2=1)
= p(Y1=0, Y2=1|X=admin) p(X=admin) / p(Y1=0, Y2=1)
= 0.157 / 0.239
= 0.657
どちらかより適したカテゴリと判断できるか,
ここで用いた
もちろん,
実際,
次回の実践編では,