はじめMath! Javaでコンピュータ数学

第55回 確率の数学 正規分布

この記事を読むのに必要な時間:およそ 2.5 分

初めて戦う相手というのは,やりにくいものです。どこから手を付けたものか,判断の基準がありません。そんなときは,自分の得意な形と,考えられる限り最も一般的な手で始めてみるものです。必ずしもそれが当てはまるとは限りませんが,当てはまらなければ,どう当てはまらなかったかを観察し,戦略を切り替えて行けばよいのです。

今回学習する正規分布はそのような道具です。必ずしも全ての場合に当てはまる確率分布ではありませんが,山形の確率分布になる事象について一般的によく用いられるものです。これまでに学習した項目が総合的に用いられます。忘れてしまったところがあれば前に戻って復習しながら学習を進めてください。

図55.1 じっくり相手の出方を見よう

図55.1 じっくり相手の出方を見よう

正規分布

正規分布※1とは,図55.2のような形の確率分布で,確率密度関数は式54.1で定義されます。式中のmは期待値,σは標準偏差です。確率変数Xの値xは実数です。

図55.2 正規分布

図55.2 正規分布

正規分布の確率密度関数を簡単に取り扱うために,確率変数の値xを次のように変換します。

式54.2の操作を標準化といいます。

標準化した正規分布の確率密度関数は次のようにシンプルになります。

標準化の操作により,f(z)のzの平均値は0,標準偏差は1となります。確率密度関数が式54.3のようになる分布を,標準正規分布※2といいます。

確率変数の値xをzに変換すると,教科書の巻末などによく掲載されている「正規分布表」が利用できます。正規分布表を利用できれば,式54.3を積分する手間を省いて必要な値を得ることが出来ます。これは大きなメリットです。

ところで,式54.1や54.3は指数部が複雑で,活字が小さいときや筆記した場合には読み誤り・書き誤りを生じやすくなります。そこで,指数関数の中でも底がe(ネイピア数)の場合には,式54.4のように書き改める流儀があります。便利ですので記憶しておくとよいでしょう。

expは指数関数※3の略記号です。

そもそも,正規分布はガウス※4が山の高さを測定していたときに,発生した誤差の分布から発見し,それ以来誤差の分布を取り扱う時に用いられています。そのためガウス分布※5とも呼ばれます。

※1)
normal distribution
※2)
standard normal distribution
※3)
exponential function
※4)
ヨハン・カール・フリードリヒ・ガウスJohann Carl Friedrich Gauss
※5)
Gaussian distribution

正規分布を使う意味

2項分布の近似として

コインやさいころについての各種事象は,扱うコインやさいころの数や試行回数が少なければ,これまで学習してきた2項分布を用いて各場合の確率(確率密度関数の値)を導出できます。しかし,数が多くなると計算の手間が大きく,コンピュータを用いたとしても正確な値を求めるのが困難になります。100回を越えるような多数回の試行の2項分布の確率密度関数を近似したものが,正規分布の確率密度関数です。

nが100の2項分布の式なんて,考えたくもないでしょう。正規分布の確率密度関数なら,nの値が100でも1000でも計算は一瞬で済んでしまいます。ですから,工業製品の寸法値のばらつき評価や,テレビの視聴率の調査など,調査対象が多数の場合に正規分布が役立つのです。

統計的データの判定基準として

正規分布は多くの場合,あるデータについて,分布の中心に近いデータなのか,それとも中心から外れたデータなのかを読み取る,という使われ方をします。例えば次のような場合です。

  • 「1000人の受験者の100点満点の試験で,ある受験生が70点を取りました。100人が合格するとして,この受験生には合格の可能性があるでしょうか。」

大雑把に言えばこの文章のような場合に正規分布が活用されます。データの集合は,グラフにすると正規分布のような形になると「仮定」して「推測」するのです。教科書などに掲載されている正規分布表は,確率密度関数の値ではなく,分布の中心(グラフの山のてっぺんのあるところ)から目的の位置までの積分値の表になっています。この数値がわかれば,目的のデータの位置が全体の何%なのかがわかるからです。

その他の確率分布

正規分布は多くの場合において有効な確率分布ですが,オールマイティではありません。正規分布はデータの数が大きい時によく当てはまりますが,データの数が小さいときや,特定の傾向を持ったデータの場合には他の分布を使用すべきであることを覚えておきましょう。

降り注ぐ雨の落ちる位置など均等な確率を取り扱う「一様分布」。複数個のコインやさいころを転がした場合の出目の確率を取り扱う「2項分布」。

発生率が極めて少ない事象の確率によく当てはまる「ポアソン分布」。宝くじの当選確率には「幾何分布」。銀行の待ち行列の時間間隔や原子の崩壊時間間隔を取り扱う「指数分布」。正規分布は数ある分布関数の中の1つにすぎません。確率分布といえば正規分布,という当てはめは,必ずしも成り立たないということを,記憶にとどめておきましょう。

しかし,どんな確率分布を示すとしても,その分布からとった確率変数の和は,和をとる数が多ければ,ほぼ正規分布に従います。これを中心極限定理※6といいます。正規分布の重要性は,このことからもわかります。

※6)
central limit theorem

著者プロフィール

平田敦(ひらたあつし)

地方都市の公立工業高等学校教諭。趣味はプログラミングと日本の端っこ踏破旅行。2010年のLotYはRuby。結城浩氏のような仕事をしたいと妄想する30代後半♂。

コメント

コメントの記入