はじめMath! Javaでコンピュータ数学

第64回 統計の数学 相関係数を導く [前編]

この記事を読むのに必要な時間:およそ 2 分

誤差の合計を最小にする

誤差の合計を最小にしたいのですが,単純にd i =y i とし,d i の合計を取ると都合が悪いことになります。推定値に対して測定値は大きいこともあれば小さいこともあります。つまり,diは正も負もあるので,単純合計では相殺されてしまう部分があるのです。大きくばらついていても,回帰直線が上手いことデータのばらつきの中心を横切った場合に,合計がゼロに近い値となることが想像できます。

そこで誤差の2乗の合計を取るのです。

以後,分散や平均という形で各項を書きたいので,そうなるように式変形していきます。

このまま展開しても良いのですが,大変手間ですので,次のように読みかえます。

この読みかえで,式は次のように簡単になります。

ここで,それぞれの項について計算します。

式64.14の各項は上手い具合に分散と共分散で表現できそうです。式64.16は定数値です。残るは式64.15です。これはどう処理できるでしょうか。

式64.15をi=1・nで合計してみましょう。このような手順を取るのは,うまくいけば,合計の結果をnで割ると分散の形で表現できるからです。

は,平均値と測定値の差の合計です。これは意味から考えて,ゼロになります。

以上のことから,式64.15は,式変形を待つまでもなく消えました。

式64.12について,i=1…nで合計し平均をとりましょう。そうすると各項が分散の形で表されるからです。

この式から,が最小となるときの,定数aとbの値を求めたいのです。そして,定数aとbは分散や共分散で表現したいのです。式64.21はaについて2次の式です。係数はですから正,よって下に凸のグラフとなります。極小となるときのaの値を代数的に導きましょう。

式64.24をa中心に並べると,次の式になる。

式64.25が最小となるのは,次の場合であることがわかります。

式63.2663.27より,

こうして,測定値の集合に対する回帰直線の定数aとbを決定する式を得ることが出来ました。

以上の結果を用いて,が最も小さいときの値として次の式を得ることが出来ます。

今回はここまで

統計の数学を用いて最小二乗法によって得られる回帰直線の定数a,bを導きました。さて,次回はいよいよ,測定データと回帰直線の間の関係の強さを判定します。次回までに,今回演繹したところを,自分で導出できるようにしてみませんか。例えば,式64.9から64.21の間です。この辺をごりごりと書き下せるようになると,計算処理の簡略化の必要な課題で力を発揮できるようになるでしょう。

今回のまとめ

  • 相関係数を導く準備として,回帰直線の式を統計の数学を用いて求めました。

著者プロフィール

平田敦(ひらたあつし)

地方都市の公立工業高等学校教諭。趣味はプログラミングと日本の端っこ踏破旅行。2010年のLotYはRuby。結城浩氏のような仕事をしたいと妄想する30代後半♂。