母分散$\sigma^2$が分からないときは,
$$ P(\overline{X} - 1.96\frac{\sigma}{\sqrt N} \leqq \mu \leqq \overline{X} + 1.96\frac{\sigma}{\sqrt N}) = 0.95$$
そこで,$z=\frac{ \overline{X} - \mu }{\sqrt{\frac{\sigma^{2}}{N}}}$の$\sigma^2$を不偏分散$U^2$に置き換えた変数$t=\frac { \overline{X} - \mu } { \sqrt{U^2/{N} }}$が,tは自由度(N-1)のt分布に従うことを使います.このことを,$t \sim t(N-1) $と表します.
t分布とは何でしょうか?正規分布の確率密度関数f(x)が
\[f(x) = \frac{1}{\sigma \sqrt{2\pi}}e^{\frac{-(x-\mu)^2}{2\sigma}} \]
で表されたように,t分布の確率密度関数f(t)は,
$$ f(t)=\frac {\Gamma ((\nu +1)/2)}{\sqrt {\nu \pi}\Gamma (\nu /2)} (1+t^{2}/\nu)^{-(\nu +1)/2} $$
で表されます.正規分布よりも一層複雑な関数なのですが,ここでも次のことが分かれば十分です.
ちなみに,$\Gamma(z)$はガンマ関数と呼ばれる,階乗を拡張した関数ですが,これもzについての関数なので,zに$\nu=N-1$を代入すれば,$\Gamma ((\nu +1)/2)$や$\Gamma (\nu/2)$は定数となります.それゆえ,パラメータνさえ具体的な値に決まればf(t)のグラフは1つに決まることが分かるかと思います.t分布,ガンマ関数の関数形など詳しくはwikipediaを参照してください.
このサイトで色々なt分布を$\nu$の値を変えて見てみてください.ただしこのサイトでは$\nu$はdfという記号で表されているので注意してください.
以下の事実を確認してください.
これは次のように考えると納得できます.
正規分布のパラメータ,母平均・母分散が統計的に重要であるように,t分布のパラメータである自由度も,統計的な意義をもつ重要な概念です.実際,自由度N-1は,不偏分散を求める際の分母にもなっています.しかし,今後の話に直接関わりはしないので自由度については他のサイトを参照してください.
では,$t=\frac { \overline{X} - \mu } { \sqrt{U^2/{N} }}$はなぜ自由度N-1のt分布に従うのでしょうか.これは純粋に数学的に導かれる事実なので,理解するためには数学を理解する必要があります.ひとまずは前回と同じように,
くらいの理解で統計の本質部分を理解するためには十分です.詳しい証明を知りたい人はこちらを参照すると良いですが,ただの計算なのでスキップして大丈夫です.
それでは具体的にt分布を使って母平均を推定してみます.再び集団Qとそこからのサンプルを使います.これは,7.11で使ったものと全く同じです.
$N = 100$ なので,$t=\frac { \overline{X} - \mu } { \sqrt{U^2/{N} }}$は自由度99のt分布に従います.そして,先程のサイトによると,自由度$ν=99$の場合には,$P(-1.99≦t≦1.99)=0.95$であることが分かります.ということは,サンプルサイズN=100のサンプルをたくさん集めてtを計算していくと,全体の95%のサンプルについては,$-1.99≦t≦1.99$が成り立つことが分かります.そこで$t=\frac { \overline{X} - \mu } { \sqrt{U^2/{N} }}$を代入して,
$$
P(-1.99≦\frac { \overline{X} - \mu } { \sqrt{U^2/{N} }}≦1.99)=0.95
$$
これを変形して,
$$
P(\overline{X}-1.99\sqrt{\frac{U^2}{N} }≦ \mu≦\overline{X}+1.99\sqrt{\frac{U^2}{N} })=0.95 \tag{1}
$$
$$
P( \overline{X} -1.96\sqrt{\frac{\sigma^{2}}{N}} \leqq \mu \leqq \overline{X} +1.96\sqrt{\frac{\sigma^{2}}{N}}) = 0.95
$$
であり,1.96だったところが,1.99と大きくなっていて,母分散がわからない分だけ不確実性が増えていることが分かります.これは自由度99のt分布は,標準正規分布に比べて,平均よりも離れたところでも値が大きいことに対応しています.
あとは,$ \overline{X} = 101.1, N = 50, U^2=4.1^2 $を(1)に代入して計算してみると,
$$
P( 100.3 \leqq \mu \leqq 101.9) = 0.95
$$
となります.つまり,95%の確率で$100.3 \leqq \mu \leqq 101.9$となることが分かります.この文の解釈の仕方は7.12でやったのと同じです.信頼区間という言葉を使えば,t分布による母平均の95%信頼区間は$100.3 \leqq \mu \leqq 101.9$になります.
ちなみに.このt分布による推定の結果は,8.6で導いた母分散既知のときの結果と一致しています.これは1.99と1.96の違いは,小数第一位までしか見ない今回の状況では無視できるほど小さいということです.