サンプル平均の差$m^D - m^P$から,真の値$µ^D-µ^P$を推定する際の誤差を定量的に評価するためには,分布とは何かを正確に理解する必要があります.
今までは分布とヒストグラムを同一のもののように扱っていました.だから,分布が同じかどうかを調べるためには,ヒストグラムが同じ形をしているかどうかで判断していたのです.
しかし,ヒストグラムの表し方には恣意性があります.例えば,同じ分布でもヒストグラムの階級幅を1,4,8,16,32にしたものを見てみましょう.幅が違うだけで,違う分布に見えてしまいます.
幅を細かくするだけでは逆に分かりづらくなることもあります.
このように考えると,ヒストグラムは分布と同じものではないことが分かります.では分布とは何かを正確に定義することにします.わかりやすくするために,身長の分布を例にします.
定義1:
ある集団について,身長xがa(cm)以上かつb(cm)以下の人の割合,つまりa≦x≦bである割合を\( P(a \leqq x \leqq b ) \)で表す.全てのa,bについての\( P(a \leqq x \leqq b ) \)の情報を集めたものが,この集団の身長の分布である.
定義2:
もしくは,ある集団からランダムに1人選んだときに,その人の身長xがa(cm)以上かつb(cm)以下となる確率も,\( P(a \leqq x \leqq b ) \)となるから,ランダムサンプリングしたときに,ある身長となる確率の一覧が分布であると考えることもできる.
一般には\( P(a \leqq x \leqq b ) \)は
\( P(a \leqq x \leqq b ) = \frac {a \leqq x \leqq b となるxの数} {母集団の要素数} \)
で求めることが出来る.
一方,ヒストグラムが表していることを\( P(a \leqq x \leqq b ) \)を用いて表すと次のようになります.
つまり,ヒストグラムはある特定のa,bについての\( P(a \leqq x \leqq b ) \)の値を視覚化したものだと言えます.一方,分布は全てのa,bについての\( P(a \leqq x \leqq b ) \)の情報です.
以上から,どんなヒストグラムを(有限個)書いたところで,分布を完全に表すことはできないことが分かります.
そこで,ヒストグラムで分布を表現することは止め,
\( p(a,b) = P(a \leqq x \leqq b ) \)
となる,関数$p(a,b)$で表すことにします.関数$p(a,b)$で表すということは,実数$a,b(a≦b)$を$p$に入力すると,xが$a≦x≦b$となる確率を返してくれるということです.実際,神様であれば,$a,b$の値が与えられたとき,母集団の中から,$a≦x≦b$となるものをすべて集めてきて,それを母集団の要素の数で割れば,どんな$a,b$についても$p(a,b)$を求めることができます.つまり,
\( p(a,b) = \frac {a \leqq x \leqq b となるxの数} {母集団の要素数} \)
とすれば,関数$p(a,b)$を構成できます.
しかし,この方法で$p(a,b)$を構成することには2つ欠点があります.
2点目が本質的に重要な問題です.例えば世の中にはヒストグラムを書くと共通の形になるものがいくつも存在します.いくつか例を上げましょう.
これらの分布は同じ種類の形をしているように見えます.また,男女の身長の分布の関係については「女子の身長分布を右側にxcm平行移動させると男子の身長分布と等しくなる」などと言いたくなります.しかし,
\( p(a,b) = \frac {a \leqq x \leqq b となるxの数} {母集団の要素数} \)
と定義すると,形とか平衡移動のような概念が含まれないので,これらの関係を表現することはできません.つまり,異なる事象の分布の共通性や関係性を明確な言葉で表現するために,この$p(a,b)$の定義はふさわしくないのです.
そこで,p(a,b)を数式を用いて表すことにします.数式で表せばグラフが書けるので,形が同じとか平行移動した関係とかそういうことを語ることができます.ではp(a,b)はどう数式で表せるかですが,その前にp(a,b)が満たすべき条件を3つあげます.
条件1は,xがピッタリaとなる確率は0だということです.これは一見直観に反するかも知れませんがxは連続的な値をとる場合,ぴったりaという値に等しくなる確率は限りなく低いのです.例えば身長が170cmです,と言っても実際には169.93101・・・cmだったり,170.021943・・・cmだったりします.それゆえ,ぴったり身長が170.00000・・・cmになる確率は0と見なせるわけです.もしくは背理法的に,仮に$p(a,a)=c(c>0)$となるなら,aは全実数を取れるので,累積確率が1を超えてしまい,矛盾するから0である,と考えてもいいでしょう.
条件2は,割合・確率の基本的な性質を表しています.つまり,$a \leqq x \leqq b$と,$b \leqq x \leqq c$は範囲に被りがないので,範囲を繋げた$a \leqq x \leqq c$の割合(確率)は,元の2つの和になります.
条件3は,$-∞ \leqq x \leqq +∞$となる確率が1ということですが,これはxがどんな値でもよいということなので,全事象の確率を求めることになり,1になっている必要があります.
とくに2番目の性質がどう数式で当てはめられるか大きなヒントを与えてくれます.
\( p(a,b) + p(b,c) = p(a,c) \)
を満たすには,a,b,cをx軸にとって,ある関数f(x)とx軸が囲む面積とすれば実現できます.
すなわち,
\[p(a,b) = \int_{a}^{b} f(x) dx \]
となるようなf(x)でp(a,b)を求めることにするのです.こうすれば,1番目と2番目の条件は積分の性質から自動的に成立します.すなわち,
\[p(a,a) = \int_{a}^{a} f(x) dx = 0 \]
\[p(a,b) + p(b,c) = \int_{a}^{b} f(x) dx + \int_{b}^{c} f(x) dx = \int_{a}^{c} f(x) dx = p(a,c)\]
3番目の条件は正規化条件と呼ばれますが,f(x)とx軸で囲まれる全面積が1になるという条件になります.
\[p(-\infty,+\infty) = \int_{-\infty}^{+\infty} f(x) dx = 1 \]
さて,身長の分布の場合には,$f(x)$として正規分布を当てはめれば,これらの条件を良く満たすことが知られています.つまり,適当な正規分布$f(x)$を選べば,身長xが$a≦x≦b$となる確率\( P(a \leqq x \leqq b ) \)は,正規分布$f(x)$とx軸のaからbで囲まれた面積と等しくなるのです.
さて,正規分布とは次のような関数です.(ただし$σ>0$です.これは$σ<0$だと$f(x)$が負になって,積分がマイナスとなり矛盾することから明らかです)
\[f(x) = \frac{1}{\sigma \sqrt{2\pi}}e^{\frac{-(x-\mu)^2}{2\sigma}} \]