はじめMath! Javaでコンピュータ数学

第65回 統計の数学 相関係数を導く[後編]

この記事を読むのに必要な時間:およそ 1.5 分

前回は相関係数を導く準備として,統計の数学を用いて回帰直線の式を導きました。今回は前回で準備した要素をもとに,最終的に相関係数を導きます。どうして相関係数というものが登場したかがわかる,小説に例えれば主人公の登場秘話のクライマックスといったところでしょうか。

決定係数

回帰直線の一次式の定数が求まりましたから,回帰直線の式と測定値の間の関係の強さを評価する方法が欲しくなりました。そこで,回帰直線の式によって得られた値の分散と,測定値の分散が近ければ,関係が強いと評価することにします。そのような式を導き出してみましょう。

測定値の集合に,最も良くあてはまる回帰直線が得られたとして,xi に対応するyの値を(推定値)と書くことにします。

(65.1)(64.27)

ここで、を見てみましょう。

この式の総和部分の第2項は式65.2を代入して推定値を消去できます。

こうして,式65.5の第2項は0となることがわかりました。

式65.16から,誤差の分散が小さければ,測定値の分散と推定値の分散が近くなることがわかります。

次の式を直線のあてはまり具合を表す目安として利用できると言うことが出来ます。

式65.17R2 が1に近づくほど直線のあてはまりが良いといえます。このR2決定係数と呼びます。

相関係数

R2 には推定値が含まれるので,これを取り除きたいと思います。そうすれば,実際に決定係数を計算するときの手間が減るからです。

式65.16より,

(65.19)(65.17)

ここで,式65.24の平方根相関係数rと名付けます。

相関係数の利点

式65.27図65.1に示すように,相関係数は-1から1の範囲の値を取ります。R が0から1であるのに対して広い範囲で表現できることに加えて,変化が直線的になりますので直感的に差を読み取りやすくなります。

図65.1 二次式と一次式の変化の読み取りやすさの差

図65.1 二次式と一次式の変化の読み取りやすさの差

図65.1のaR2 のグラフです。R の変化に対してR2 は,ゼロに近いところでは緩やかで,ゼロから離れるほど急になります。これに対して(b)は,当然ながら変化は直線的です。r の正負が回帰直線の傾きの正負を表してることもうれしいところです。

ただし,回帰直線の傾きについては,これまでの筋書きから考えると,既に最小二乗法で得た定数から知ることが出来るので,必ずしも重要とは言えないでしょう。

しかし,一般的に統計的にデータを処理しようとする場合,最小二乗法で回帰直線を近似する前に,散布図を作成し,先ず人の目でデータの性格を大まかに判断します。「お,これは,もしかしたら直線的な性質があるんじゃないか?」というところで,相関係数を求めて,最小二乗法を実施する意味があるかどうか判断する,という筋書きで使うことになるでしょう。そうなると,相関係数の正負で直線の傾きが読み取れるのは便利です。しかし,その場合にもグラフを見ているのなら,もう傾きの正負はわかりそうなもの。

やっぱり,相関係数が正負の値を取ることの実際の効用は,値の範囲が大きいことが一番でしょう。

著者プロフィール

平田敦(ひらたあつし)

地方都市の公立工業高等学校教諭。趣味はプログラミングと日本の端っこ踏破旅行。2010年のLotYはRuby。結城浩氏のような仕事をしたいと妄想する30代後半♂。

コメント

コメントの記入