ホーム

10 薬の真の効果の推定

10.1 ここまでの内容から薬の効果をt分布を使って推定する方法が思いつける

ここまでの道のりが長かったので,何をやろうとしているのかを再確認しましょう.薬ZのJ国の子供達への効果を知りたいのでした.

そして,私たちが測定できるのはサンプルの薬群とプラセボ群の結果だけです.ここから薬Zの真の効果$µ^D-µ^P$を推定したいのです.

今までに習得した方法を使うと次のような方法が思いつきます.

  1. サンプルの薬群の平均と不偏分散から母薬群の平均をt分布によって推定する.
  2. サンプルのプラセボ群の平均と不偏分散から母プラセボ群の平均をt分布によって推定する.
  3. 1と2の推定の差をとって,真の効果$µ^D-µ^P$を推定する

この方法でも推定はできます.しかしベストな方法とは言えません.

10.2 その方法が良くない理由

その理由を直観的に説明しましょう(説明は厳密ではありません).

今推定したい,知りたいことは$µ^D-µ^P$についての情報だけです.しかし,$µ^D$と$µ^P$という2つの情報から推定してしまっています.それゆえ,真の効果$µ^D-µ^P$の推定が正しいためには,$µ^D$と$µ^P$の両方の推定が正しい必要があります.これが問題点です.

例えば,この2つを95%信頼水準で推定したとしましょう.この場合,区間に母平均が入っている確率はそれぞれ95%です.ということは両方正しく区間に入っている確率は,$0.95^2 \fallingdotseq 90$%となります.つまり,真の効果の推定の信頼水準が落ちているのです.

問題点は,知りたいのは$µ^D-µ^P$についての情報だけなのに,$µ^D$と$µ^P$という2つの情報から推定してしまっていることにあります.そこで,直接$µ^D-µ^P$を推定しましょう.

10.3 薬の効果を推定する

まず,$ X_k \sim N(μ_1, σ_1) $であるデータ$X_1,X_2 \cdots X_m$と,$ Y_i \sim N(μ_2, σ_2) $であるようなデータ$Y_1,Y_2 \cdots Y_n$があるとき,
$$
\overline{X} - \overline{Y} \sim N(\mu_1 -\mu_2,\frac{\sigma_1^{2}}{m}+\frac{\sigma_2^{2}}{n})
$$
で,これを標準化して,
$$
z=\frac{(\overline{X} - \overline{Y}) - (\mu_1 -\mu_2)}{\sqrt{\frac{\sigma_1^{2}}{m}+\frac{\sigma_2^{2}}{n}}} \sim N(0,1)
$$
です.あとは,母分散$σ_1^2$と$σ_2^2$が分からないので,t分布のときのように,これをサンプルから計算できる値に置き換えます.そこでまずは,$σ^2=σ_1^2=σ_2^2$を仮定します.(等分散性の仮定)すなわち,二つの分散は等しいと仮定して,その等しい分散を$σ^2$と置きました.これで,
$$
z=\frac{(\overline{X} - \overline{Y}) - (\mu_1 -\mu_2)}{\sqrt{\sigma^{2}(\frac{1}{m}+\frac{1}{n}})} \sim N(0,1) \tag{1}
$$
となります.

あとは$σ^2$をプールされた分散$U_e^2$で置き換えます.具体的には,XとYの不偏分散を$U_X^2,U_Y^2$とおくと,
$$
U_e^2=\frac{(m-1)U_X^2+(n-1)U_Y^2}{m+n-2}
$$
がプールされた分散です.これで(1)の$σ^2$を置き換えると,
$$
t=\frac{ (\overline{X} - \overline{Y}) - (\mu_1 -\mu_2) } {\sqrt{U_e^2(\frac{1}{m}+\frac{1}{n})}} \sim t(m+n-2) \tag{2}
$$
となります.つまり,標準正規分布に従うzの$σ^2$をプールされた分散$U_e^2$で置き換えた変数tは自由度(m+n-2)のt分布に従うのです.

これは$z=\frac{ \overline{X} - \mu }{\sqrt{\frac{\sigma^{2}}{N}}}$の$\sigma^2$を不偏分散$U^2$に置き換えた変数$t=\frac { \overline{X} - \mu } { \sqrt{U^2/{N} }}$が,tは自由度(N-1)のt分布に従うことと,よく似ています.

10.4 サンプルサイズNを計算する

この結果をふまえて実験を実行します.そのためにはサンプルを何人集めるかを考える必要があります.この人数を2Nとしましょう.

という条件のもとで,Nをいくつにすれば良いかを求めてみます.

まず,人数を2Nとしたので,薬群とプラセボ群はN人ずつになります.(2)式の記号をこの例に当てはめると,

$$
\overline{X}=m^D,\overline{Y}=m^P,m=N,n=N,\mu_1=\mu^D,\mu_2=\mu^P
$$

となります.とりあえずこれを代入してtを表してみます.

$$t=\frac { (m^D - m^P ) - (\mu^D -\mu^P) } {\sqrt{U_e^2(\frac{1}{N}+\frac{1}{N})}}$$

tは自由度(2N-2)のt分布に従います.そして

$$
U_e^2=\frac{(N-1)U_D^2+(N-1)U_P^2}{2N-2}
$$
となります.ここでサンプル薬群もサンプルプラセボ群の不偏分散も,大体おなじになる,つまり,$U_D^2=U_P^2=U^2$と仮定してみましょう.そもそもこのプールされた分散を使うこと自体が母集団の等分散性を仮定しているので,これは妥当な仮定でしょう.すると,

$$
U_e^2=\frac{(N-1)U^2+(N-1)U^2}{2N-2}=U^2
$$

となります.そこで,

$$
t=\frac { (m^D - m^P ) - (\mu^D -\mu^P) } {\sqrt{U^2(\frac{2}{N})}}
$$

となります.

ここで自由度99のときには,95%信頼区間が標準正規分布とt分布で,ほとんど変わらなかったこと(それぞれ$|z|<1.96$と$|t|<1.99$)を思い出しましょう.2N>100にするなら,95%信頼区間は,標準正規分布と同じくらいになるはずなのでラフには,

$$P(-1.96 \leqq t \leqq 1.96) = 0.95$$

となるはずです.これに,tを代入して

$$P(-1.96 \leqq \frac { (m^D - m^P ) - (\mu^D -\mu^P) } {\sqrt{U^2(\frac{2}{N})}} \leqq 1.96) = 0.95$$

これを整理して,

$$ P( m^D - m^P -1.96\sqrt{U^2(\frac{2}{N})} \leqq \mu^D -\mu^P \leqq m^D - m^P+1.96\sqrt{U^2(\frac{2}{N})}) = 0.95 $$

となります.サンプル平均からの誤差=標準誤差は$1.96\sqrt{U^2(\frac{2}{N})}$となるので,これをどれくらいに抑えたいのかによってサンプルサイズが決まります.ここで,

という決断をしたとしましょう.さらに,20歳時のサンプルの身長の不偏分散$U^2$は日本人のデータを使って,$U^2=5.7^2$と予測したとします.

以上から,
$$
1.96\sqrt{5.7^2(\frac{2}{N})} = 1
$$
をといて,$N \fallingdotseq 250$となります.

以上から,サンプルとして2N=500人集めてくればよいことになります.

ちなみに自由度2N-2=498のt分布の95%区間は先程のサイトを使うと,ほとんど1.96で,この計算はズレていません.

10.5 実験の結果

さて,500人の5歳児をJ国からランダムサンプリングで集めてきて,実際に実験の結果を行った結果は次のようになりました.

* サンプル薬群 サンプルプラセボ群
サンプルサイズ 250 250
平均 174.8 171.1
不偏分散 $5.9^2$ $5.6^2$

すなわち,

$$
\overline{m^D}=174.8,\overline{m^P}=171.1,m=n=N=250,\mu_1=\mu^D,U_D^2=5.9^2,U_P^2=5.6^2 \tag{2}
$$

ということになり,まず$U_e^2$を計算すると,

$$
U_e^2=\frac{(m-1)U_X^2+(n-1)U_Y^2}{m+n-2} = 33.1
$$

であり,先程の話から,自由度498のt分布に従うtについては,

$$P(-1.96 \leqq t \leqq 1.96) = 0.95$$

なので,これに

$$
t=\frac { (m^D - m^P ) - (\mu^D -\mu^P) } {\sqrt{U_e^2(\frac{1}{m}+\frac{1}{n})}}
$$

を代入して整理すると,

$$ P( m^D - m^P -1.96\sqrt{U_e^2(\frac{1}{m}+\frac{1}{n})} \leqq \mu^D -\mu^P \leqq m^D - m^P+1.96\sqrt{U_e^2(\frac{1}{m}+\frac{1}{n})}) = 0.95 $$

となり,あとは(2)式の値を代入して整理すると,

$$
3.7 - 0.96 \leqq \mu^D -\mu^P \leqq 3.7 + 0.96
$$

で,やはり標準誤差はだいたい1となっていて,これを整理して

$$
2.7 \leqq \mu^D -\mu^P \leqq 4.7
$$

となります.これで,薬の効果を推定することができました.この結果からDr.Kは子供達へ薬を使うことに決めました.おしまい.


10.A

10.5で述べた実験を実際に行おうとするとき,いくつか注意する点があります.これについてはスタチンの論文を実際に読むというところでも詳しく見ていくところになりますので,次の仮説検定を読み終えたらこちらも見てみてください.

10.A.1 ランダム抽出について

まずサンプルを500人集めるわけですが,母集団はJ国で5歳を迎える子供達全員ですから,理想的にはここからランダムサンプリングする必要があります.しかし,以前に述べたように,この母集団は未来に生まれる子供達も含む仮想的なものですから,直接的にランダムサンプリングをすることはできません.現実的に出来るのは,例えばここ1年で5歳を迎える子供達の中からランダム抽出すること,もっと現実的には,例えばDr.Kがいる地域の子供達,などになります.

しかし,本質的に重要なのは,このサンプルが母集団と同一の集団と見なせるのかということです.ランダムサンプリングは同一の集団を生み出す手段に過ぎないので,結果として調べるサンプルが母集団と同一の集団になっていればランダムサンプリングできていなくても問題ではありません.

例えば,ここ1年で5歳を迎える子供達の中からランダム抽出する場合を考えてみます.もし,「過去の子供と現在の子供には差がない.つまり,どんな性質も同じ分布になる.」ということが合理的な仮定だと考えられるのであれば,同一の集団と見なせるはずです.一方,Dr.Kのいる地域の子供達にJ国全体とは異なった性質があるのなら(例えば金持ちの地域であるとか),重要な点で分布が異なる可能性があるので,同一の集団とは見なせず,その結果,仮に薬の効果があると分かっても,それはJ国の子供達には適応できず,あくまでDr.Kのいる地域の子供達だけに適応されることになります.つまり,この場合,母集団がJ国の子供達ではなく,Dr.Kのいる地域の子供達になってしまっているのです.

それでも,コストなど現実的な理由で,ある地域の子供しか調べられない場合はどうすればいいでしょうか?その場合には,集めたサンプルがJ国全体の子供達と同じ分布をしていることを確かめればよいでしょう.つまり,J国全体の子供について,例えば国の全数調査がなされて,身長・体重やその他の諸々のデータがあるのであれば,集めた子供がそれらの性質について同じ分布をしているのか確かめる方法があります.しかし,この方法では人間が知り得る範囲のことしか確かめることはできず,例えば知り得ない性質に偏りがあるために,同一の集団とは言えない可能性は否定できません.

10.A.2 ランダム割当について

次に500人を2群に分けるわけですが,このときもランダム割当は,平均的に2群が同一になることを保証するだけで,実際にできた2群が同一と見なせるのかは分かりません.そこで同様に,結果に影響を及ぼしそうな因子について予め等しい分布をしていることを確かめる必要があります.

10.A.3 脱落について

2群に分けた後は,実際に薬を飲ませていくわけですが,15年という長い日数を要することからも分かるように,途中で脱落する人が確実に出てきます.この脱落がランダムに起きるのなら,薬の効果を調べる上で問題ありませんが,例えば薬Zが

という性質を持っていたら,単に15年を完遂した人たちの平均身長を比べるだけでは,薬Zの効果は過大評価されてしまいます.このような問題に対応するためには脱落した人を考慮に入れた解析が必要になりますが,これをITT(intention to treat)解析といいます.詳しくはこちらを参照して下さい.

前へ ホーム 次へ