色々な例を通じて,確率変数と確率分布に馴染めたところで,本題に戻ります.N人を正規分布$N(μ,σ^2)$からランダムサンプリングすることを考えましょう.このとき,k人目の身長を$X_k$とすると,$X_k \sim N(μ, σ^2)$です.
そしてN個の確率変数$X_k \hspace{3pt} (1 \leqq k \leqq N) $はそれぞれ独立です.独立とは,それぞれの$X$の値は他の$X$の値に影響されることなく,$N(μ,σ^2)$で定まる確率に従って生じるということです.これは,例えば3人目にサンプリングした人の身長$X_3$は$X_1$や$X_{N-1}$の値がどうであろうと関係なく,$N(μ,σ^2)$で定められる確率で,ある値となることを考えれば,納得できると思います.この独立の概念は非常に重要なのですが,このシリーズでは特別言及しない限り,それぞれの確率変数は独立であると考えてよいです.
サンプル平均 $\overline{X}$は,
$$
\overline{X} = \frac{1}{N} \sum_{k=1}^{N} X_k
$$
で求められます.サンプル平均$ \overline{X}$のように,確率変数 $X_1,X_2 \cdots X_N$から計算される値のことを統計量といいます.
サンプル平均$ \overline{X}$と母平均$µ$については$E[\overline{X}] = µ$が成り立つのでした.つまり,サンプル平均は母平均の普遍統計量です.
他の統計量として,
$$
U^2 =\frac{1}{N-1} \sum_{k=1}^N (X_k - \overline {X})^2
$$
で定義される不偏分散$U^2$があります.普遍という名前の通り,母分散$σ^2$とは$E[U^2]=σ^2$の関係が成り立ちます.一方,サンプル分散$$S^2 =\frac{1}{N} \sum_{k=1}^N (X_k - \overline {X})^2$$も統計量ですが,これは$E[S^2]=\frac{N-1}{N}σ^2$であり,バイアスがあります.つまり,サンプル分散から母分散を推定しようとすると,系統誤差が生じてしまいます.
今後使う統計量は,サンプル平均$ \overline{X}$と不偏分散$U^2$の2つだけです.
サンプル分散$S^2$はサンプル自体の分散を求めるのには使えますが,知りたいのはサンプル自体の分散ではなく母分散です.現実世界で得られるもののほとんどはサンプルですが,知りたいのは母集団に関する情報です.サンプル自体には興味はないので,サンプルについて知れるサンプル分散ではなく,$E[U^2]=σ^2$を満たす不偏分散を使うことになります.
なぜ分母をN-1とすると,期待値が母分散と一致するのかについてこちらを参照してください.
ここで,正規分布には次の性質があります.
A:和に関する再生性
確率変数X,Yが独立で
$X \sim N(\mu_1,\sigma_1^{2})$
$Y \sim N(\mu_2,\sigma_2^{2})$
のとき,
$X + Y \sim N(\mu_1 + \mu_2, \sigma_1^{2} + \sigma_2^{2})$
確率変数Xが
$X \sim N(\mu,\sigma^{2})$
のとき,
$aX + b \sim N(a\mu + b,a^2\sigma^{2})$
確率変数Xが
$X \sim N(\mu,\sigma^{2})$
のとき,
$\frac{X-\mu}{\sigma} \sim N(0,1)$
このように,Xを $\frac{X-\mu}{\sigma}$ に変換することを標準化するという.
証明はいずれもこのサイトを参照してください.
事実A.B.から $X_k \sim N(μ, σ)$なら,
$$ \overline{X} = \frac{1}{N} \sum_{k=1}^{N} X_k \sim N(\mu,\frac{\sigma^{2}}{N}) $$
を示せます.(この証明は,A.B.を使えば簡単に示せるので,わからないければぜひ確認してください.証明は同じサイトにあります.)
これは正規分布からN個サンプルをとることを繰り返して,サンプル平均の分布を作っていくと
を表しています.これは4.8において,集団Qからサンプルサイズを色々変えてサンプル平均の分布を調べた結果と一致しています.
サンプルサイズNが大きいほど散らばりが小さくなることは4.8の段階で分かりましたが,今や正規分布を当てはめたことで,分散$σ^2$は1/N倍に,散らばり$σ$は$\sqrt{\frac{1}{N}}$倍になることが分かります.正規分布の散らばり=山の幅はσ=標準偏差で決まっていたことを思い出しましょう.忘れた人はgeogebraのアプリで確認してください.
サンプル平均の標準偏差のことを標準誤差と言います.正規分布を導入することで,サンプル平均が平均的にどれだけ母平均と離れるか(標準誤差)を定量的に評価することができるようになりました.この例の場合には,標準誤差=$\sqrt{\frac{\sigma^2}{N}}$です.
サンプル平均$\overline{X}$について,
$$ \overline{X} \sim N(\mu,\frac{\sigma^{2}}{N}) $$
でした.さらに,事実Cを使って標準化すると,
$$ z = \frac{ \overline{X} - \mu }{\sqrt{\frac{\sigma^{2}}{N}}} \sim N(0,1) $$
が示せます. $N(0,1)$を標準正規分布といいます.
標準正規分布について見ていきます.標準正規分布の確率密度関数は,
\[f(x) = \frac{1}{\sigma \sqrt{2\pi}}e^{\frac{-(x-\mu)^2}{2\sigma}} \]
に,$µ=0,\sigma^2=1$を代入して,
$$f(x)= \frac{1}{\sqrt{2\pi}}e^{\frac {-x^2}{2}}$$
となります.
$X \sim N(0,1)$ のとき,a≦X≦bとなる確率 $P(a≦X≦b)$は,
$$\int_a^b f(x) dx$$
で求められますが,実際に自分で計算する必要はありません.このサイトで色々なa,bを代入して$P(a≦X≦b)$を求めてみてください.とくに次の代表的な値はよく使います.
以上の話を踏まえると,サンプル平均から母平均を定量的に推定することができます.まず,今までの話を簡単に復習します.
$N(μ, σ^2)$である母集団からランダムサンプルした$X_k \sim N(μ, σ^2)$について, $ \overline{X} \sim N(\mu,\frac{\sigma^{2}}{N}) $ で,
$$z = \frac{ \overline{X} - \mu }{\sqrt{\frac{\sigma^{2}}{N}}} \sim N(0,1)$$
でした.
ここで母平均と母分散を知っている神様なら,サンプルサイズNのサンプルを取り出すたびにzの値を具体的に求めることができます.こうして,サンプルをとることを繰り返して,zの分布をヒストグラムにしていけば,N(0,1)によく当てはまるものになります.
一方,私たちはμもσも知らないのでzの値を計算しようとしても,これらが未知数として残ってしまいます.
ここで,8.5の結果から,例えば$P(-1.96≦z≦1.96)= 0.95$ です.つまり,サンプルをたくさん集めてzの値を集めていくと,全体の95%のサンプルのzは-1.96から1.96の間に入るということです.
zに $\frac{ \overline{X} - \mu }{\sqrt{\frac{\sigma^{2}}{N}}}$を戻すと,
$$ P( -1.96 \leqq \frac{ \overline{X} - \mu }{\sqrt{\frac{\sigma^{2}}{N}}} \leqq 1.96) = 0.95 $$
となります.これを式変形すると,
$$ P( \overline{X} -1.96\sqrt{\frac{\sigma^{2}}{N}} \leqq \mu \leqq \overline{X} +1.96\sqrt{\frac{\sigma^{2}}{N}}) = 0.95 \tag{1}$$
となります.2つの式は,Pの中身を変形しただけなので数学的には全く同じことを意味するのですが,ここで視点を神様から私たちに移します.私たちにとっては,$\overline{X},N$だけが既知です.しかし,特別ボーナスで,母分散の値も神様から教えてもらえたとしましょう.
具体的に,集団Qをまた使って説明します.集団Qは母平均が$100.50$,母分散が$18.48=4.3^2$でした.
ここでサンプルサイズ100のサンプルを一つ取って次のようだったとします
.
母分散は$4.3^2$だと神様に教えてもらえるので,$ \overline{X} = 101.1$ , $N = 100$ , $\sigma^2 = 4.3^2$を(1)に代入して計算すると,
$$ P( 100.3 \leqq \mu \leqq 101.9) = 0.95$$
が分かります.つまり,$100.3 \leqq \mu^D \leqq 101.9$が成り立つ確率は95%だということです.母分散を教えてもらうというインチキはしましたが,サンプル平均から母平均を誤差つきで推定することができています.
そして,その誤差の大きさは,どれだけの確信がほしいかで変わってきます.
例えば,$P(-1.96≦z≦1.96)= 0.95$ではなく,$P(-3≦z≦3)= 0.9974$を使うとどうなるでしょうか.
数値が違うだけなので計算は省略しますが,
$$ P( \overline{X} -3\sqrt{\frac{\sigma^{2}}{N}} \leqq \mu \leqq \overline{X} +3\sqrt{\frac{\sigma^{2}}{N}}) = 0.9974 $$
から,同様に$ \overline{X} = 101.1$ , $N = 100$ , $\sigma^2 = 4.3^2$を代入して,
$$ P( 99.9 \leqq \mu \leqq 102.3) = 0.9974$$
となります.つまり,$99.9 \leqq \mu^D \leqq 102.3$が成り立つ確率は99.74%ということです.一般的には $a \leqq \mu \leqq b$が成り立つ確率を高くすればするほど,a,bの範囲は広くなっていくことが分かります.そしてその広くなり方は,$\sqrt{\frac{\sigma^{2}}{N}}$に依存していることが分かります.つまり,母分散が大きいほど(元々のデータの散らばりが大きいほど),サンプルサイズが小さいほど,推定幅が大きくなってしまうわけです.
このような推定方法を区間推定といいます.そして,$P(a≦µ≦b)= 0.95$ となる区間$a≦µ≦b$ のことを母平均についての95%信頼区間といいます.一般に,$P(a≦µ≦b)= 1-α$ となる区間$a≦µ≦b$ のことを(1-α)%信頼区間といいます.このとき1-αを信頼水準と言います.なぜ1-αという表記なのか,αとは何者なのかについては後ほど説明します.
例えば,$P(-3≦z≦3)= 0.9974$を使った場合には,$ P( 99.9 \leqq \mu \leqq 102.3) = 0.9974$が求められたので,$99.9 \leqq \mu \leqq 102.3$は,99.74%信頼区間(1-α=0.9974なのでα=0.0026)となります.
母分散が未知の場合にどうするか,という問題に移る前に,
$a \leqq \mu \leqq b$が成り立つ確率は95%
というとき,これが意味しているところについて頻度主義的な解釈に則って説明します.頻度主義とは何かについては後ほど説明しましょう.
これはμがaからbの間にある確率は95%の確率,という意味ではありません.というのも,母集団は確定的なものなので,母平均も(私たちが知らないだけで)確定した一つの値をもつ定数であり,変数ではないからです.μが定数なら,a,bを具体的な数に定めたときには$a \leqq \mu \leqq b$は成り立っているか,成り立っていないかであり,具体的にa,bを定めた後に,$a \leqq \mu \leqq b$が成り立つ確率を考えることはできません.では$a \leqq \mu \leqq b$が成り立つ確率は95%は何を意味するのでしょうか?
そもそも「$a \leqq \mu \leqq b$が成り立つ確率は95%」という主張は,
$$ P( \overline{X} -1.96\sqrt{\frac{\sigma^{2}}{N}} \leqq \mu \leqq \overline{X} +1.96\sqrt{\frac{\sigma^{2}}{N}}) = 0.95 $$
から生まれています.ここで,μを囲む左右の式,$\overline{X} -1.96\sqrt{\frac{\sigma^{2}}{N}}$も,$\overline{X} +1.96\sqrt{\frac{\sigma^{2}}{N}}$も確率変数であることを理解しましょう.つまり,サンプルを取ってくるたびにこれらの値は1つに決まるのです.ということは,$ \overline{X} -1.96\sqrt{\frac{\sigma^{2}}{N}} \leqq \mu \leqq \overline{X} +1.96\sqrt{\frac{\sigma^{2}}{N}}$という不等式も確率変数と見なせます.つまり,この不等式が成り立つことをA=1,成り立たないことをA=0などとおけば,Aはサンプルを取ってくるたびに値が決まる確率変数なのです.
そうして十分にサンプルをとってくれば,この不等式が成り立つサンプル,つまりA=1となったサンプルは全体の95%になる,というのが,
$$ P( \overline{X} -1.96\sqrt{\frac{\sigma^{2}}{N}} \leqq \mu \leqq \overline{X} +1.96\sqrt{\frac{\sigma^{2}}{N}}) = 0.95 $$
の主張です.そこで特定のサンプルの値を代入した場合,例えば8.6での$100.3 \leqq \mu \leqq 101.9$については,値が定まった今や,これが成り立っているか,いないかは確定しているけれども,ランダムにサンプルを選んだときにA=1となる確率は95%なので,その意味で$100.3 \leqq \mu \leqq 101.9$は95%で成り立つという言葉を使っています.
それでは母分散$σ^2$が分からないときはどうしたら良いか,という問題を次にやっていきます.