完全に確実な実験を行った結果,以下のようになりました.
薬Zを飲んだほうが,飲まない場合に比べて身長が5cm伸びています.薬は明らかに効果があるので,子供Lにも薬Zを使用したところ,L'と全く同じように15年で71cm伸び,177cmになりました.
この結果から,Dr.Kは薬ZをJ国の子供達にも使うべきかを考え始めました.つまり,Dr.Kは個人に対してではなく,集団に対する意思決定を考え始めたのです.もう少し具体的に「J国の子供が5歳になった日から毎晩薬Zを1錠20mg内服させるべきか」という意思決定だとしましょう.
この意思決定の判断基準は何にすべきでしょうか?
Lの場合には「Lの身長は薬Zで伸びるのか」だったので,これを子供達に拡張して,「薬によって子供たち全員の身長が,薬を飲まないときよりも伸びること」とするのはどうでしょうか.
これは厳しすぎるとDr.Kは考えました.例えば子供が100人に薬Zを使って,
という結果であれば,薬Zを飲ませたほうがいいのだと考えます.こうしてDr.Kは次の判断基準として妥当だと考えました.
薬Zを使用した場合のほうが,使用しない場合よりも,身長の伸びが平均して大きくなっていること
この判断基準を,5人の5歳0日児を例に説明しましょう.Lのときと同じように,彼らをそれぞれ複製して,薬Zを飲むグループと飲まないグループに分け,20歳0日時での身長を調べます.今後,薬を飲むグループは薬群,介入群,飲まないグループはプラセボ群,コントロール群などと呼びます.
結果は次の通りになりました.ただし,
$$
薬Zの効果 = 薬Zありの身長 - 薬Zなしの身長
$$
で定義しています.
子 | 5歳0日 | 20歳0日 薬+ | 20歳0日 薬- | 薬の効果 |
---|---|---|---|---|
L | 106.0cm | 177.0cm | 172.0cm | +5.0cm |
M | 102.5cm | 171.4cm | 168.1cm | +3.3cm |
N | 112.9cm | 182.3cm | 180.8cm | -1.5cm |
O | 107.2cm | 170.3cm | 166.6cm | +3.7cm |
P | 108.1cm | 176.0cm | 171.5cm | +4.5cm |
平均 | 107.34cm | 175.02cm | 172.02cm | +3.0cm |
この結果から次のことが分かります.
3つ目の事実は,薬を飲んだほうが平均して3cm身長が高くなることを示しています.このように平均して高くなるならば,たとえNのように薬を飲んで身長が小さくなった人がいても,薬Zを使うことにする,というのがDr.Kの決断です.
さて,この薬による平均的な身長への効果は,薬群とプラセボ群の平均差 \( 175.02 - 172.02 = 3 \)によっても求められます.そこで今後は,
で求めることにします.これ以降,薬の効果というときには,薬の平均効果を意味します.
以上からLのときと同様に考えると,薬の効果を知るための完全に確実な方法は次の通りです.
ステップ2の複製が困難なのは言うまでもありませんが.実はステップ1の「集める」も複製と同じくらい困難なのです.
まず,ステップ1の実施が必要なこと,つまり,「薬Zを使用する予定のJ国の5歳0日児全員」(以下これを全員と呼びます)を集める必要があることを説明します.というのも,もし全員集める必要がないのなら,仮に実施が困難であっても,やらなければいいだけで問題ではないからです.
そこで,もし全員を集めてこないで,例えば先程の5人の結果だけで,薬を使うべきかを判断したとしましょう.しかし,この判断方法には問題があります.なぜなら,この5人の結果と全員の結果は一致するとは限らないからです.たまたまこの5人は薬がよく効いただけかもしれず,例えば5人を追加して調べてみると,以下のような結果となるかもしれません.
子 | 5歳0日 | 20歳0日 薬+ | 20歳0日 薬- | 薬の効果 |
---|---|---|---|---|
L | 106.0cm | 177.0cm | 172.0cm | +5.0cm |
M | 102.5cm | 171.4cm | 168.1cm | +3.3cm |
N | 112.9cm | 182.3cm | 180.8cm | -1.5cm |
O | 107.2cm | 170.3cm | 166.6cm | +3.7cm |
P | 108.1cm | 176.0cm | 171.5cm | +4.5cm |
Q | 113.6cm | 172.2cm | 177.0cm | -4.8cm |
R | 104.0cm | 168.0cm | 168.6cm | -0.4cm |
S | 104.4cm | 160.6cm | 164.2cm | -3.6cm |
T | 102.0cm | 166.9cm | 166.7cm | +0.2cm |
U | 110.4cm | 173.5cm | 176.6cm | -2.9cm |
平均 | 107.11cm | 171.63cm | 170.97cm | +0.66cm |
薬を伸びたほうが確かに伸びてはいますが,今やその効果は+0.66cmしかなく,これしか伸びないのなら,薬を使うことは無意味かもしれません.
しかし,この結果は調べる人をさらに追加すれば再び変わるでしょう.結果が変わらなくなるのは,全員を調べたときです.なぜなら,全員を調べれば,もう追加して調べる人はいなくなり,この人たちの結果も踏まえると話が変わる,などということは無くなるからです.だから,完全に確実な方法にしたければ,全員を集めて,全員の結果を調べる必要があります.
しかし,どうすれば全員を集めて,全員の結果を調べたことになるのでしょうか.Zは(もし使われるとすれば)5歳になったJ国の子供全員に例外なく使われるとしましょう.
であれば「ちょうど来年に5歳になる子U」も「35年後に生まれ,40年後に5歳になる子Q」も薬Zを使う子供達の1人です.であればUに対する薬の効果も,Qに対する薬の効果も調べる必要があります.
彼らへの薬の効果を調べるためには
ということが必要になります.
以上から「全員を集める」とは,今後J国で5歳を迎える子供達全てを,時を操作して5歳にした状態で集めることなのです.そうして,5歳の彼らを複製して,薬群とプラセボ群の身長差を調べれば,これはまさしく全員の結果なので,薬の真の平均的な効果を求められます.
こう考えると,複製と同じくらい「集める」ことにも困難があることが分かりますが,このように全員を集めてできる集団を母集団と呼びます.また,母集団の平均や分散のことを母平均とか,母分散と言います.$µ^D$は薬群の母平均であり,$µ^P$はプラセボ群の母平均です.
一般的には,母集団とは,ある介入への効果を知りたい対象を全員集めてきたものです.それゆえ,誰への効果が知りたいのかで母集団は変わります.Dr.Kの例で薬を投与するのは,つまり介入の対象になるのは「J国の5歳0日児全員」なのでこれが母集団になりますが,もっと広く野望を持って,「全世界の5歳0日児全員」に薬を使うことを考えるなら,これが母集団になります.ですから,この場合は,全世界で生まれる子供を5歳にした状態で集めてくる必要があります.
もしくは,ターゲットを絞って,「5歳0日時に平均身長よりも5cm以上低いJ国の子供達」だけに薬を投与するなら,これが母集団になります.この場合は,例えば平均身長が106cmなら,
という操作で母集団を集めることができます.
このように,誰に介入するのかによって,母集団は変わります.逆に言うと,母集団を明確に,決められなければ,誰への効果を調べているかが分かっていないことになるので,有効な調査を行うことができません.
さて,一方で,母集団ではなく,例えば「ここ一週間でJ国で5歳を迎える全ての子供達(サンプル1)」を集めてきたのなら,これをサンプルとか標本といいます.サンプルは母集団の部分集合です.サンプルには「J国N市の年収2000万円以上でピンク人種の家庭で5歳を迎える子供達(サンプル2)」とか「両親の平均身長が180cm以上の5歳0日児(サンプル3)」とか色々なものを考えることができます.
重要なポイントは,
ということです.
しかし,直観的には,
と思われます.この直観は正しいのですが,それでは,母集団への効果とサンプルへの効果が同じと見なせるために必要な条件は何でしょうか.
話を進める前に,用語を整理します.サンプルについて実験を行った場合の平均や分散をサンプル平均やサンプル分散と言います.$m^D$はサンプルの薬群のサンプル平均であり,$m^P$はサンプルのプラセボ群のサンプル平均です.
測定される薬の効果$m^D-m^P$は,薬の真の効果$\mu^D-\mu^P$とは完全には一致しませんが,この2つがおおよそ一致する条件,つまり$m^D-m^P \fallingdotseq \mu^D-\mu^P$と見なせる条件を考えたいわけです.この条件が分かれば,ステップ1の困難,母集団を集める,というところはサンプルを代わりに集めることで解決できます.
集団への介入の効果を知る方法
困難
困難1.は,母集団への介入の効果とサンプルへの介入の効果が同じと見なせるような良いサンプルを調べることで解決できます.そこで,良いサンプルとなる条件,良いサンプルを集める方法を知りたいのです.
この問題に取り組む前に,次回は困難2.について整理することにします.というのも,困難2.の根本部分をよくよく考えると,
が分かるからです.それゆえ,両者は同じ方法で解決できるのです.
母集団とサンプルの違いを明確にすることは統計を理解するために非常に重要です.次の6つを調べるうえで,母集団とサンプルは何かを考えてみましょう.
解答
* | 母集団 | サンプル |
---|---|---|
高校生の学力調査 | 全ての高校生 | 学力調査テストを受けた高校生 |
視聴率 | テレビを所有する全ての世帯 | 視聴率調査対象の一部の世帯 |
お客様満足度 | 全てのお客様 | アンケートに答えた一部のお客様 |
内閣支持率 | 全ての有権者 | 調査対象の一部の有権者 |
0歳6ヶ月のネズミに 成長ホルモン注射が及ぼす影響 | (過去・現在・未来において) この世に存在する 全ての6ヶ月のネズミ | 実験室で調べることにした 10匹の6ヶ月ネズミ |
ある日に工場で生産した 椅子Xの耐久性 | その日に生産した すべての椅子X | 抜き取ったいくつかの椅子X |