機械学習 はじめよう

第12回 ベイズ線形回帰[前編]

この記事を読むのに必要な時間:およそ 3 分

今回と次回でいよいよ「ベイズ線形回帰」を紹介します。だいぶ機械学習らしくなってきます。

「ベイズ線形回帰」とは,⁠線形回帰」⁠連載第8回9回11回「ベイジアン」第10回の考え方のもとで解くお話です。

さて,復習を兼ねて必要な準備から入っていきましょう。

線形回帰を確率の問題に

「回帰」とは,一言で言えば「データ点から関数を求める方法」でした。

しかし,漠然と「関数を求める」と言われても何をしたらいいかわかりません。そこで「線形回帰」では,あらかじめベースとなる関数φi(x)(基底関数)を用意して,その線形和の範囲から一番適した関数を探すというアプローチをとります。

これなら係数wiを決めるだけで関数f(x)を求められますから,するべきことがわかりやすくなりました。

それでは、この係数はどのように決めたらよいでしょうか。もちろん一番いいwiになるようにしたいところですが,何をもって「一番いい」と判断するかの基準が問題です。

前回までの線形回帰では,⁠一番いい」「二乗誤差(下式)を最小にするもの」という基準を使っていました。

これはこれで実用的ですが,ベイジアンにするにはちょっと困ります。確率の問題になっていないからです。

そこで,線形回帰を確率の問題に読み替えることをしましょう。このとき,⁠一番いい」の基準が自然に「確率の一番高いヤツ」になるというメリットもあるのですが,詳しいことは後で見ていきます。

天下りになりますが,まずは次のような分布を導入してみます。

ただし

p(t|w,x)は「wとxに依存するtの分布」を表しています。

N(μ,β-1)は,平均がμ=f(x)で,分散がβ-1であるような正規分布(連載第4回5回参照)を表す記号で,釣鐘型と呼ばれる下図のような形の分布になります。

正規分布N(0,1)のグラフ

正規分布N(0,1)のグラフ

ここで初めて出てきたβは「ノイズの精度」と呼ばれる値で,得られるデータがどのくらい「真の値」からぶれていてもいいかを指定するパラメータになります。詳細は次の項で説明します。

この分布p(t|w,x)を導入さえすれば,あとは確率の道具だけを使って線形回帰が解けてしまうのですが,その前に「この降って湧いた分布p(t|w,x)って何?」というところが気になりますよね。先にその疑問をかたづけてしまいましょう。

ノイズ=確率分布

線形回帰のお話の中で,回帰によって得られる関数の値f(x)=Σwiφi(x)は,データ点を必ずしも通らないことを見てもらいました。無理にデータ点をすべてぴったり通そうとする「過学習」と呼ばれるような問題を起こすこともあるのでしたね。

これは観測されたデータ点が必ずしも「正確な値」ではないことを反映しています。

画像

画像

このとき,⁠少しずれているけど,もともとのデータのせいだから許してね」と謝るだけで話が済む場合は楽なのですが,現実の問題はそう簡単には許してくれません。

「データはもともとどれくらいずれてたの? 新しいデータがどれくらいずれるのかも見積もってね」とか,⁠ずれてもいいけど,全体でこれくらいに抑えて欲しい」とか,突っ込まれてしまうことになります。

このような課題に対応すべく,⁠ずれ具合」を定式化する必要に迫られます。色々な方法が考えられるでしょうが,⁠観測されたデータには,あるランダムなノイズが足されている」という考え方がとても便利でよく使われています。

ランダムと言っても,気分次第であっち行ったりこっち行ったりする「本当にデタラメ」ではさすがに手に追えません。やはり予測値に近いと確率が高くて,離れるほど確率が低くなる,そういう分布に従うくらいのことは仮定したいものです。

そんな「中心に近いほど高く,離れるほど低い分布」で何かいいものはないでしょうか。

ん? ついさっきそういう分布を見たような気がしませんか? そう,正規分布はまさにその条件にぴったり。こういった背景を念頭に置いて,先ほど導入した分布をもう一度眺めてみましょう。

ただし

N(μ,β-1)は,予測値μ=f(x)を中心に,離れるほど確率が低くなる分布です。その低くなり具合はβによってコントロールされていて,βが大きいと中心に強く集まり,小さいとずれも幅広くなります。そのため,分散の逆数であるこのβは「精度」とも呼ばれています。

こうして,ずれ具合を正規分布を使って定式化できるようになりました。しかも,今回詳しいことは省略しますが,正規分布には計算が楽になるという嬉しい特典がこっそり付いていますので,願ったりかなったりというわけです。

ちなみに,こうした「観測値のずれ具合を正規分布に従うノイズで説明する」研究をしていたもっとも有名な人がガウスさんです。おかげで正規分布はガウス分布とも呼ばれるようになりました。

著者プロフィール

中谷秀洋(なかたにしゅうよう)

サイボウズ・ラボ(株)にてWebアプリ連携や自然言語処理を中心に研究開発を行いながら,英単語タイピングゲーム iVocaをサービス提供している。

URLhttp://d.hatena.ne.jp/n_shuyo/
Twitterhttp://twitter.com/shuyo

コメント

  • とっても分かりやすいです

    難しいことを簡単に伝えるのがどれだけ難しいことか、と考えると、この記事はとっても分かりやすかったです。
    思わず、前9回分も読んでしまいました :)
    多分、教科書を書く人にとって教科書になるべき記事ですね。
    確率以外に、ものの書き方まで勉強になります。
    これからもウォッチしていきたいと思いますので、次号もよろしくお願いいたします。

    Commented : #2  内田 (2012/02/02, 08:18)

  • 次号が楽しみです。

    ベイズ線形回帰[前編]を読みました。
    難しいお話が優しく理解できます。
    次号[後編]はいつごろ出るのだろう。
    できるだけ早く出してください。
    宜しくお願いします。

    Commented : #1  加納 喜代継 (2012/01/11, 15:41)

コメントの記入