新刊ピックアップ

統計解析の基礎

この記事を読むのに必要な時間:およそ 1.5 分

統計学には,大きく分けて二つの分野があります。記述統計学と推測統計学です。記述統計学は資料を整理し系統立てる方法を研究します。推測統計学は資料を全体の一部と考え,その資料から全体についての情報を得る方法を研究します。

資料の視覚化

記述統計学の大きな目的の一つは,資料を視覚化し,資料の本質を直感的に理解できるようにすることです。この統計資料の視覚化には様々な形態があります。代表的なものとしては,円グラフや棒グラフ,折れ線グラフがあります。変わったところでは,株価変動を示すローソク足チャートも,記述統計学の対象になります。他にもユニークな統計資料の視覚化がいろいろと工夫されています。

資料の数値化

グラフ化する以外に,統計資料を理解させるもう一つの方法があります。それは,統計資料を代表的な数値に集約させる方法です。平均値,中央値(メジアン⁠⁠,最頻値(モード⁠⁠,分散,標準偏差などが,その代表的な数値になります。

平均値

平均値とは個々の変量の値の総和をデータ数で割ったものです。利用される分野によって,平均点,平均所得,平均時刻などと名を変えますが,親しみがあるでしょう。たとえば,次の表で,4人の視力の平均値は次のように求められます。

名前視力(両眼)
海のイルカ1.2
森いずみ0.7
原田すみれ1.0
山野太郎1.5

中央値(メジアン)

データを大きさの順に並べたときに,ちょうど中央に位置する値のことを中央値といいます。メジアンとも中位数ともいいます。

たとえば,次の表のように,A~Eの5人の貯蓄高が示されたとしましょう。その中央値は600です。この例の平均値は2000ですが,この資料の場合には,中央値の方が平均値よりも良い代表値になっていると思われます。

名前貯蓄額(万円)
Aさん200
Bさん400
Cさん600
Dさん800
Eさん8000

最頻値(モード)

度数分布表において,最も頻度(度数)の高い値のことをいいます。

たとえば,次の表は土地の販売において,価格と区画数の度数分布表です。最頻値は3600万円です。平均値3330万円,中央値3400万円に比べて,この販売資料の最適な代表値は最頻値の3600万円と思われます。

価格(万円)区画数
280010
300015
320015
340020
360040

データのバラツキを表す指標

資料を代表する値,すなわち代表値として,平均値,中央値,最頻値を調べました。しかし,代表値だけで資料を語ることはできません。その資料の中のデータの散らばり具合も重要です。というのは,散らばりは標準からのズレ,すなわち各データの個性を表すからです。そこで登場するのが分散と標準偏差です。

偏差

偏差とは個体の値から平均値を引いて得られる値です。たとえば,変量xについて,i番目の個体の持つ値をxiとし,平均値をxとすると,xiの偏差は次のように表わされます。

要するに,偏差とは平均値からのズレを表します。

変動

「偏差」は各個体の「個性」を表します。その個性を資料全体で加えあわせれば,その資料の持つ「個性全体」を求めることができます。すなわち,資料の持つ「情報」を表すと考えられるのです。

ところで,個性を表す偏差を単純に加えあわせると,プラスの個性とマイナスの個性が打ち消しあって,値は0になってしまいます。そこで,全体の個性を調べるときには,各々を2乗して加えます。これを変動といいます。また,偏差平方和とも呼びます。通常,Qで表されます。

一般的に次のような資料があるとしましょう。このとき,変動Qは次のように表されます。

nは個体数, xは平均値です。

番号x
1x1
2x2
3x3
nxn

分散

変動Qは資料が大きいほど,値も大きくなってしまいます。ばらつきがなく個性の少ない単調な資料でも,データが増えれば(1)の値Qは大きくなってしまうからです。そこで,個体数nで割ってみましょう。こうすれば,その欠点が避けられます。

この値を変量xの分散と呼びます。通常s2と記されます。Σ記号を利用すると,次のように表現されます。

既に調べた平均値と偏差という言葉を利用するなら,分散とは「偏差の2乗平均」と表現できます。

(注)分散は英語でVarianceといいますが,その値は通常js2と表記されます。このsは標準偏差(standard deviation)の頭文字です。この標準偏差の2乗が分散になるのです。

この記事は小社刊『ファーストブック 統計解析がわかる』より,本文の一部を抜粋して内容を再構成したものです。詳しい内容を知りたい方は,書籍をご覧ください。