ホーム

5 身長の分布を正規分布で表す

5.1 ヒストグラムと分布は同じものではない

サンプル平均の差$m^D - m^P$から,真の値$µ^D-µ^P$を推定する際の誤差を定量的に評価するためには,分布とは何かを正確に理解する必要があります.

今までは分布とヒストグラムを同一のもののように扱っていました.だから,分布が同じかどうかを調べるためには,ヒストグラムが同じ形をしているかどうかで判断していたのです.

しかし,ヒストグラムの表し方には恣意性があります.例えば,同じ分布でもヒストグラムの階級幅を1,4,8,16,32にしたものを見てみましょう.幅が違うだけで,違う分布に見えてしまいます.

幅が1の場合 幅が4の場合 幅が8の場合 幅が16の場合 幅が32の場合
極端な話,階級の幅を∞にすれば全てのヒストグラムは完全に一致します.

幅を細かくするだけでは逆に分かりづらくなることもあります.

幅が0.1の場合

5.2 分布の定義

このように考えると,ヒストグラムは分布と同じものではないことが分かります.では分布とは何かを正確に定義することにします.わかりやすくするために,身長の分布を例にします.

定義1:
ある集団について,身長xがa(cm)以上かつb(cm)以下の人の割合,つまりa≦x≦bである割合を\( P(a \leqq x \leqq b ) \)で表す.全てのa,bについての\( P(a \leqq x \leqq b ) \)の情報を集めたものが,この集団の身長の分布である.

定義2:
もしくは,ある集団からランダムに1人選んだときに,その人の身長xがa(cm)以上かつb(cm)以下となる確率も,\( P(a \leqq x \leqq b ) \)となるから,ランダムサンプリングしたときに,ある身長となる確率の一覧が分布であると考えることもできる.

一般には\( P(a \leqq x \leqq b ) \)は

\( P(a \leqq x \leqq b ) = \frac {a \leqq x \leqq b となるxの数} {母集団の要素数} \)

で求めることが出来る.

5.3 ヒストグラムは有限個の\( P(a \leqq x \leqq b ) \)の値を視覚化したものである

一方,ヒストグラムが表していることを\( P(a \leqq x \leqq b ) \)を用いて表すと次のようになります.

つまり,ヒストグラムはある特定のa,bについての\( P(a \leqq x \leqq b ) \)の値を視覚化したものだと言えます.一方,分布は全てのa,bについての\( P(a \leqq x \leqq b ) \)の情報です.

以上から,どんなヒストグラムを(有限個)書いたところで,分布を完全に表すことはできないことが分かります.

5.4 分布を関数$p(a,b)$で表す

そこで,ヒストグラムで分布を表現することは止め,

\( p(a,b) = P(a \leqq x \leqq b ) \)

となる,関数$p(a,b)$で表すことにします.関数$p(a,b)$で表すということは,実数$a,b(a≦b)$を$p$に入力すると,xが$a≦x≦b$となる確率を返してくれるということです.実際,神様であれば,$a,b$の値が与えられたとき,母集団の中から,$a≦x≦b$となるものをすべて集めてきて,それを母集団の要素の数で割れば,どんな$a,b$についても$p(a,b)$を求めることができます.つまり,

\( p(a,b) = \frac {a \leqq x \leqq b となるxの数} {母集団の要素数} \)

とすれば,関数$p(a,b)$を構成できます.

5.5 現在の$p(a,b)$の構成では,分布の共通性を認識できない

しかし,この方法で$p(a,b)$を構成することには2つ欠点があります.

  1. 母集団を知り得ない私たちは,この方法で$p(a,b)$は求められないこと.
  2. 仮にこの方法が実行できても,これではいろいろな集団の分布の共通性・関係性を認識できないこと.

2点目が本質的に重要な問題です.例えば世の中にはヒストグラムを書くと共通の形になるものがいくつも存在します.いくつか例を上げましょう.

日本人17歳男女の身長分布
子供の出生体重
大学入試の得点

これらの分布は同じ種類の形をしているように見えます.また,男女の身長の分布の関係については「女子の身長分布を右側にxcm平行移動させると男子の身長分布と等しくなる」などと言いたくなります.しかし,

\( p(a,b) = \frac {a \leqq x \leqq b となるxの数} {母集団の要素数} \)

と定義すると,形とか平衡移動のような概念が含まれないので,これらの関係を表現することはできません.つまり,異なる事象の分布の共通性や関係性を明確な言葉で表現するために,この$p(a,b)$の定義はふさわしくないのです.

5.6 $p(a,b)$が満たすべき3つの条件

そこで,p(a,b)を数式を用いて表すことにします.数式で表せばグラフが書けるので,形が同じとか平行移動した関係とかそういうことを語ることができます.ではp(a,b)はどう数式で表せるかですが,その前にp(a,b)が満たすべき条件を3つあげます.

  1. \( p(a,a) = 0 \)
  2. \( p(a,b) + p(b,c) = p(a,c) (a \leqq b \leqq c)\)
  3. \( p(-∞,+∞) = 1 \)

条件1は,xがピッタリaとなる確率は0だということです.これは一見直観に反するかも知れませんがxは連続的な値をとる場合,ぴったりaという値に等しくなる確率は限りなく低いのです.例えば身長が170cmです,と言っても実際には169.93101・・・cmだったり,170.021943・・・cmだったりします.それゆえ,ぴったり身長が170.00000・・・cmになる確率は0と見なせるわけです.もしくは背理法的に,仮に$p(a,a)=c(c>0)$となるなら,aは全実数を取れるので,累積確率が1を超えてしまい,矛盾するから0である,と考えてもいいでしょう.

条件2は,割合・確率の基本的な性質を表しています.つまり,$a \leqq x \leqq b$と,$b \leqq x \leqq c$は範囲に被りがないので,範囲を繋げた$a \leqq x \leqq c$の割合(確率)は,元の2つの和になります.

条件3は,$-∞ \leqq x \leqq +∞$となる確率が1ということですが,これはxがどんな値でもよいということなので,全事象の確率を求めることになり,1になっている必要があります.

5.6 $p(a,b)$は関数f(x)とx軸のaからbが囲む面積で表現できる

とくに2番目の性質がどう数式で当てはめられるか大きなヒントを与えてくれます.

\( p(a,b) + p(b,c) = p(a,c) \)

を満たすには,a,b,cをx軸にとって,ある関数f(x)とx軸が囲む面積とすれば実現できます.

すなわち,

\[p(a,b) = \int_{a}^{b} f(x) dx \]

となるようなf(x)でp(a,b)を求めることにするのです.こうすれば,1番目と2番目の条件は積分の性質から自動的に成立します.すなわち,

\[p(a,a) = \int_{a}^{a} f(x) dx = 0 \]

\[p(a,b) + p(b,c) = \int_{a}^{b} f(x) dx + \int_{b}^{c} f(x) dx = \int_{a}^{c} f(x) dx = p(a,c)\]

3番目の条件は正規化条件と呼ばれますが,f(x)とx軸で囲まれる全面積が1になるという条件になります.

\[p(-\infty,+\infty) = \int_{-\infty}^{+\infty} f(x) dx = 1 \]

5.7 身長の分布には$f(x)$として正規分布がよく当てはまる

さて,身長の分布の場合には,$f(x)$として正規分布を当てはめれば,これらの条件を良く満たすことが知られています.つまり,適当な正規分布$f(x)$を選べば,身長xが$a≦x≦b$となる確率\( P(a \leqq x \leqq b ) \)は,正規分布$f(x)$とx軸のaからbで囲まれた面積と等しくなるのです.

さて,正規分布とは次のような関数です.(ただし$σ>0$です.これは$σ<0$だと$f(x)$が負になって,積分がマイナスとなり矛盾することから明らかです)

\[f(x) = \frac{1}{\sigma \sqrt{2\pi}}e^{\frac{-(x-\mu)^2}{2\sigma}} \]

見た目の複雑さに怯える必要ありません.正規分布について何か計算をすることは,統計の本質を理解することとは関係ないからです.それよりも次の問題が重要です.

前へ ホーム 次へ