ここまでの道のりが長かったので,何をやろうとしているのかを再確認しましょう.薬ZのJ国の子供達への効果を知りたいのでした.
そして,私たちが測定できるのはサンプルの薬群とプラセボ群の結果だけです.ここから薬Zの真の効果$µ^D-µ^P$を推定したいのです.
今までに習得した方法を使うと次のような方法が思いつきます.
この方法でも推定はできます.しかしベストな方法とは言えません.
その理由を直観的に説明しましょう(説明は厳密ではありません).
今推定したい,知りたいことは$µ^D-µ^P$についての情報だけです.しかし,$µ^D$と$µ^P$という2つの情報から推定してしまっています.それゆえ,真の効果$µ^D-µ^P$の推定が正しいためには,$µ^D$と$µ^P$の両方の推定が正しい必要があります.これが問題点です.
例えば,この2つを95%信頼水準で推定したとしましょう.この場合,区間に母平均が入っている確率はそれぞれ95%です.ということは両方正しく区間に入っている確率は,$0.95^2 \fallingdotseq 90$%となります.つまり,真の効果の推定の信頼水準が落ちているのです.
問題点は,知りたいのは$µ^D-µ^P$についての情報だけなのに,$µ^D$と$µ^P$という2つの情報から推定してしまっていることにあります.そこで,直接$µ^D-µ^P$を推定しましょう.
まず,$ X_k \sim N(μ_1, σ_1) $であるデータ$X_1,X_2 \cdots X_m$と,$ Y_i \sim N(μ_2, σ_2) $であるようなデータ$Y_1,Y_2 \cdots Y_n$があるとき,
$$
\overline{X} - \overline{Y} \sim N(\mu_1 -\mu_2,\frac{\sigma_1^{2}}{m}+\frac{\sigma_2^{2}}{n})
$$
で,これを標準化して,
$$
z=\frac{(\overline{X} - \overline{Y}) - (\mu_1 -\mu_2)}{\sqrt{\frac{\sigma_1^{2}}{m}+\frac{\sigma_2^{2}}{n}}} \sim N(0,1)
$$
です.あとは,母分散$σ_1^2$と$σ_2^2$が分からないので,t分布のときのように,これをサンプルから計算できる値に置き換えます.そこでまずは,$σ^2=σ_1^2=σ_2^2$を仮定します.(等分散性の仮定)すなわち,二つの分散は等しいと仮定して,その等しい分散を$σ^2$と置きました.これで,
$$
z=\frac{(\overline{X} - \overline{Y}) - (\mu_1 -\mu_2)}{\sqrt{\sigma^{2}(\frac{1}{m}+\frac{1}{n}})} \sim N(0,1) \tag{1}
$$
となります.
あとは$σ^2$をプールされた分散$U_e^2$で置き換えます.具体的には,XとYの不偏分散を$U_X^2,U_Y^2$とおくと,
$$
U_e^2=\frac{(m-1)U_X^2+(n-1)U_Y^2}{m+n-2}
$$
がプールされた分散です.これで(1)の$σ^2$を置き換えると,
$$
t=\frac{ (\overline{X} - \overline{Y}) - (\mu_1 -\mu_2) } {\sqrt{U_e^2(\frac{1}{m}+\frac{1}{n})}} \sim t(m+n-2) \tag{2}
$$
となります.つまり,標準正規分布に従うzの$σ^2$をプールされた分散$U_e^2$で置き換えた変数tは自由度(m+n-2)のt分布に従うのです.
これは$z=\frac{ \overline{X} - \mu }{\sqrt{\frac{\sigma^{2}}{N}}}$の$\sigma^2$を不偏分散$U^2$に置き換えた変数$t=\frac { \overline{X} - \mu } { \sqrt{U^2/{N} }}$が,tは自由度(N-1)のt分布に従うことと,よく似ています.
この結果をふまえて実験を実行します.そのためにはサンプルを何人集めるかを考える必要があります.この人数を2Nとしましょう.
という条件のもとで,Nをいくつにすれば良いかを求めてみます.
まず,人数を2Nとしたので,薬群とプラセボ群はN人ずつになります.(2)式の記号をこの例に当てはめると,
$$
\overline{X}=m^D,\overline{Y}=m^P,m=N,n=N,\mu_1=\mu^D,\mu_2=\mu^P
$$
$$t=\frac { (m^D - m^P ) - (\mu^D -\mu^P) } {\sqrt{U_e^2(\frac{1}{N}+\frac{1}{N})}}$$
tは自由度(2N-2)のt分布に従います.そして
$$
U_e^2=\frac{(N-1)U_D^2+(N-1)U_P^2}{2N-2}
$$
となります.ここでサンプル薬群もサンプルプラセボ群の不偏分散も,大体おなじになる,つまり,$U_D^2=U_P^2=U^2$と仮定してみましょう.そもそもこのプールされた分散を使うこと自体が母集団の等分散性を仮定しているので,これは妥当な仮定でしょう.すると,
$$
U_e^2=\frac{(N-1)U^2+(N-1)U^2}{2N-2}=U^2
$$
となります.そこで,
$$
t=\frac { (m^D - m^P ) - (\mu^D -\mu^P) } {\sqrt{U^2(\frac{2}{N})}}
$$
となります.
ここで自由度99のときには,95%信頼区間が標準正規分布とt分布で,ほとんど変わらなかったこと(それぞれ$|z|<1.96$と$|t|<1.99$)を思い出しましょう.2N>100にするなら,95%信頼区間は,標準正規分布と同じくらいになるはずなのでラフには,
$$P(-1.96 \leqq t \leqq 1.96) = 0.95$$
となるはずです.これに,tを代入して
これを整理して,
となります.サンプル平均からの誤差=標準誤差は$1.96\sqrt{U^2(\frac{2}{N})}$となるので,これをどれくらいに抑えたいのかによってサンプルサイズが決まります.ここで,
という決断をしたとしましょう.さらに,20歳時のサンプルの身長の不偏分散$U^2$は日本人のデータを使って,$U^2=5.7^2$と予測したとします.
以上から,
$$
1.96\sqrt{5.7^2(\frac{2}{N})} = 1
$$
をといて,$N \fallingdotseq 250$となります.
以上から,サンプルとして2N=500人集めてくればよいことになります.
ちなみに自由度2N-2=498のt分布の95%区間は先程のサイトを使うと,ほとんど1.96で,この計算はズレていません.
さて,500人の5歳児をJ国からランダムサンプリングで集めてきて,実際に実験の結果を行った結果は次のようになりました.
* | サンプル薬群 | サンプルプラセボ群 |
---|---|---|
サンプルサイズ | 250 | 250 |
平均 | 174.8 | 171.1 |
不偏分散 | $5.9^2$ | $5.6^2$ |
すなわち,
$$
\overline{m^D}=174.8,\overline{m^P}=171.1,m=n=N=250,\mu_1=\mu^D,U_D^2=5.9^2,U_P^2=5.6^2 \tag{2}
$$
ということになり,まず$U_e^2$を計算すると,
$$
U_e^2=\frac{(m-1)U_X^2+(n-1)U_Y^2}{m+n-2} = 33.1
$$
であり,先程の話から,自由度498のt分布に従うtについては,
$$P(-1.96 \leqq t \leqq 1.96) = 0.95$$
なので,これに
$$
t=\frac { (m^D - m^P ) - (\mu^D -\mu^P) } {\sqrt{U_e^2(\frac{1}{m}+\frac{1}{n})}}
$$
を代入して整理すると,
となり,あとは(2)式の値を代入して整理すると,
$$
3.7 - 0.96 \leqq \mu^D -\mu^P \leqq 3.7 + 0.96
$$
で,やはり標準誤差はだいたい1となっていて,これを整理して
$$
2.7 \leqq \mu^D -\mu^P \leqq 4.7
$$
となります.これで,薬の効果を推定することができました.この結果からDr.Kは子供達へ薬を使うことに決めました.おしまい.
10.5で述べた実験を実際に行おうとするとき,いくつか注意する点があります.これについてはスタチンの論文を実際に読むというところでも詳しく見ていくところになりますので,次の仮説検定を読み終えたらこちらも見てみてください.
まずサンプルを500人集めるわけですが,母集団はJ国で5歳を迎える子供達全員ですから,理想的にはここからランダムサンプリングする必要があります.しかし,以前に述べたように,この母集団は未来に生まれる子供達も含む仮想的なものですから,直接的にランダムサンプリングをすることはできません.現実的に出来るのは,例えばここ1年で5歳を迎える子供達の中からランダム抽出すること,もっと現実的には,例えばDr.Kがいる地域の子供達,などになります.
しかし,本質的に重要なのは,このサンプルが母集団と同一の集団と見なせるのかということです.ランダムサンプリングは同一の集団を生み出す手段に過ぎないので,結果として調べるサンプルが母集団と同一の集団になっていればランダムサンプリングできていなくても問題ではありません.
例えば,ここ1年で5歳を迎える子供達の中からランダム抽出する場合を考えてみます.もし,「過去の子供と現在の子供には差がない.つまり,どんな性質も同じ分布になる.」ということが合理的な仮定だと考えられるのであれば,同一の集団と見なせるはずです.一方,Dr.Kのいる地域の子供達にJ国全体とは異なった性質があるのなら(例えば金持ちの地域であるとか),重要な点で分布が異なる可能性があるので,同一の集団とは見なせず,その結果,仮に薬の効果があると分かっても,それはJ国の子供達には適応できず,あくまでDr.Kのいる地域の子供達だけに適応されることになります.つまり,この場合,母集団がJ国の子供達ではなく,Dr.Kのいる地域の子供達になってしまっているのです.
それでも,コストなど現実的な理由で,ある地域の子供しか調べられない場合はどうすればいいでしょうか?その場合には,集めたサンプルがJ国全体の子供達と同じ分布をしていることを確かめればよいでしょう.つまり,J国全体の子供について,例えば国の全数調査がなされて,身長・体重やその他の諸々のデータがあるのであれば,集めた子供がそれらの性質について同じ分布をしているのか確かめる方法があります.しかし,この方法では人間が知り得る範囲のことしか確かめることはできず,例えば知り得ない性質に偏りがあるために,同一の集団とは言えない可能性は否定できません.
次に500人を2群に分けるわけですが,このときもランダム割当は,平均的に2群が同一になることを保証するだけで,実際にできた2群が同一と見なせるのかは分かりません.そこで同様に,結果に影響を及ぼしそうな因子について予め等しい分布をしていることを確かめる必要があります.
2群に分けた後は,実際に薬を飲ませていくわけですが,15年という長い日数を要することからも分かるように,途中で脱落する人が確実に出てきます.この脱落がランダムに起きるのなら,薬の効果を調べる上で問題ありませんが,例えば薬Zが
という性質を持っていたら,単に15年を完遂した人たちの平均身長を比べるだけでは,薬Zの効果は過大評価されてしまいます.このような問題に対応するためには脱落した人を考慮に入れた解析が必要になりますが,これをITT(intention to treat)解析といいます.詳しくはこちらを参照して下さい.
最後に,薬の効果の推定$μ^D-μ^P$の推定です.
例えばDr.Kの結果はまとめを見ると,
$\overline{X}=m^D,\overline{Y} = m^P,U_X=S_D^2,U_Y = S_P^2,m=50,n=50$
で,自由度98のt分布については,やはりこのサイトを使うと,$P(-1.99≦t≦1.99)=0.95$が分かるので,以上から
$$
P( (\overline{X} - \overline{Y}) -1.99\sqrt{U_e(\frac{1}{m}+\frac{1}{n})} \leqq \mu_1 -\mu_2 \leqq (\overline{X} - \overline{Y}) +1.99\sqrt{U_e(\frac{1}{m}+\frac{1}{n})}) = 0.95
$$
これも,なぜプールした分散$U_e$に置き換えるとt分布になるのか,というのは純粋に数学的な話なのであまり重要ではありません.サンプルを取ってくるたびに,tの値が一つに決まって,tの分布を調べると,(数学的な理屈により)t分布になることが分かる,ということが理解できれば十分です.
より重要なのは意思決定です.Dr.HとDr.Mの結果についてもまとめたページを見てほしいですが,3人の推定では薬の効果$\mu_1 -\mu_2$の95%信頼区間は,次のようになりました.
やはり食い違いがあります.ここで,サンプルサイズが大きいほど標準誤差が小さくなることを思い出しましょう.それゆえ,3人の結果をばらばらにではなく,まとめたほうがより正確な推定ができることが考えられます.
そこで3人の結果をまとめて,300人の実験結果として薬群,プラセボ群の平均や不偏分散を求めてみます.
これを用いて,もう一度$\mu_1 -\mu_2$を計算してみると次のような結果になります.
以上をもって,薬には1cm程度身長を伸ばす効果があると判断し,薬を使うこととなりました.
おしまい.
以上を理解できれば十分です.
では,$t=\frac { \overline{X} - \mu } { \sqrt{U^2/{N} }}$はなぜ自由度N-1のt分布に従うのでしょうか.これは純粋に数学的に導かれる事実です.統計を理解する上では本質的ではありません.重要なのは,前回と同じように,
サンプルを取ってくるごとに,tの値は一つに決まる.μについては私たちは知り得ないが,値は確定しているから,μを知っている神様なら各サンプルについてtの値を計算できる.
そしてサンプルをたくさん取り出してtの分布のヒストグラムを作ると,それは自由度N-1のt分布という確率分布と一致する.
自由度ν=50のf(t)については$\int_{-2.01}^{2.01}f(t)dt = 0.95$が成り立つ.これは計算すれば分かるが計算は機械がやってくれるので,その方法を理解する必要はない.すなわち,自由度ν=50のf(t)に従うtについて,$P(-2.01≦t≦2.01)=0.95$である.
だから,サンプルをたくさん取り出してくればサンプルの95%で,$-2.01≦t≦2.01$が成立する.このことは,tに$\frac { \overline{X} - \mu } { \sqrt{S^2/{N} }}$を代入して整理した$\overline{X}-2.01\sqrt{S^2/{N} }≦ \mu≦\overline{X}+2.01\sqrt{S^2/{N} }$についても同様で,100個サンプルがあれば,平均95個のサンプルについては,これが成り立つ.
以上を理解できれば十分です.