集団に対する薬の効果を確実に測定する方法は次の通りでした.
その際に直面する2つの困難
のうち,1を解決する方法は良いサンプルを集めること,でしたが,良いサンプルとは何か?どう集めればよいか?が分かりませんでした.この問題に取り組む前に,困難2について論点を整理します.
2の困難の本質は人間を複製することにありますが,そもそもなぜ1人1人を複製しようと思ったのでしょうか.それは,同じ母集団を2つ用意するためです.(同じ集団でなければ差が薬の効果とは言えないことを思い出しましょう.)
この論理の根底には「集団が同じになるためには,同一の個人がどちらの集団にも存在する必要がある」という考えがあります.だからこそ,同じ集団をつくるために,1人1人を複製しようと思うのです.
この集団の同一性に関する考え方を修正すると,個人の複製はできなくても,集団の複製は可能であることが分かります.この非対称性が統計学を有用たらしめるのです.
集団の同一性について考える前に,個人の同一性を考えてみましょう.
2人が全く同じ人間というとき,私たちが意味するのは,この2人は,どんな点についても同じであるということです.例えば身長も体重も顔の形も,身体をつくる細胞の種類も数も,なにもかもぴったり同じだということです.
このうち,身体をつくる細胞の種類や数を正確に知ることはできません.ですが,知り得ることも知り得ないことも両方含めて全部の点で同じになる,というのが,個人が同じということです.だからこそ,ある介入(例えば薬Z)の効果も同じになるのです.例えば,ある2人が,人智の知り得る全ての点では同じでも,知り得ない何かしらの点で違っていれば,この違いのために2人の薬への効果が変わる可能性があります.
一方,2人がある点,例えば身長について同じというときはどうでしょうか.その場合,2人が同じかを調べるには,身長を測って同一の値になるかを見ればよいでしょう.もし同じ値なら,他の点はさておき,二人は身長について同じだといえます.
別の捉え方として,身長だけを知っても2人を区別することができない場合,2人は身長について同じである,と考えることもできます.
次に集団の同一性を考えます.集団についても,個人の場合と同じように,全く同じ(=すべての点で等しい),ある点では同じ(=他の点では異なっていてもいい)ということを考えたいです.
しかし,上記の考え「集団が同じになるためには,全く同一の個人がどちらの集団にも存在する必要がある」を採用するなら,ある点については同じ,ということは考えることができなくなります.一人でも構成員が異なれば,それは単に違う集団となってしまうからです.
よって,この同一性の定義では,集団は完全に同一か,そうではない別物かの2択となってしまいます.さらに集団の大きさが違う場合,例えば,100人と200人の集団が同一になることはなくなります.
では,この考えを修正して,他の点はさておき,例えば身長については2集団が同じ,などということを考えるためには,同一性をどんな基準で判定すればいいでしょうか.集団は複数人から構成されているので,個人のときのように計測した1つの値を直接比べる,ということはできません.
といっても集団の1人1人の身長の値を直接見るのでは,意味のあることを判断するのは困難です.例えば以下の100人からなる2つの集団の身長データをそのまま眺めても,何が言えるのか判断することは難しいでしょう.
集団1(cm) | 集団2(cm) |
---|---|
98.9 | 113.8 |
104.6 | 106.6 |
99.2 | 108.4 |
105.0 | 107.9 |
101.3 | 94.5 |
96.9 | 109.2 |
96.2 | 111.3 |
97.2 | 102.8 |
103.0 | 109.6 |
99.2 | 91.7 |
103.5 | 107.2 |
100.6 | 96.9 |
100.0 | 111.5 |
108.2 | 112.0 |
93.5 | 108.6 |
100.1 | 105.8 |
104.4 | 79.9 |
100.7 | 84.4 |
97.1 | 102.3 |
102.0 | 108.6 |
98.9 | 106.7 |
101.0 | 110.2 |
95.1 | 107.3 |
97.4 | 98.2 |
101.3 | 99.0 |
101.7 | 105.2 |
103.8 | 110.0 |
91.8 | 110.3 |
102.0 | 77.0 |
101.8 | 112.2 |
102.9 | 114.4 |
96.4 | 109.4 |
99.3 | 108.9 |
96.0 | 112.8 |
101.7 | 83.2 |
98.8 | 109.3 |
104.2 | 107.2 |
104.3 | 106.4 |
96.9 | 80.9 |
104.9 | 78.6 |
102.6 | 112.5 |
94.4 | 95.6 |
102.9 | 106.7 |
99.4 | 96.5 |
94.6 | 79.3 |
106.8 | 107.0 |
98.5 | 107.5 |
104.4 | 80.4 |
102.2 | 104.1 |
97.4 | 82.9 |
92.7 | 87.0 |
99.2 | 84.0 |
103.3 | 108.5 |
97.1 | 81.5 |
98.0 | 112.9 |
101.4 | 82.1 |
99.4 | 110.5 |
105.3 | 83.7 |
100.4 | 105.0 |
95.4 | 105.3 |
96.2 | 106.1 |
97.6 | 81.9 |
108.3 | 106.8 |
95.9 | 98.3 |
101.1 | 105.4 |
98.0 | 84.6 |
102.7 | 104.2 |
101.5 | 113.3 |
96.2 | 86.8 |
99.8 | 84.8 |
94.4 | 110.6 |
101.0 | 81.1 |
110.5 | 113.0 |
101.4 | 75.5 |
97.9 | 100.8 |
104.0 | 79.6 |
102.3 | 105.4 |
103.9 | 107.4 |
102.6 | 80.1 |
101.6 | 104.3 |
97.3 | 107.9 |
100.9 | 105.7 |
93.6 | 101.0 |
105.4 | 112.4 |
100.5 | 109.3 |
105.6 | 99.5 |
96.1 | 84.0 |
86.8 | 80.8 |
97.4 | 103.4 |
93.5 | 105.4 |
98.7 | 105.6 |
99.8 | 89.7 |
96.7 | 84.7 |
98.9 | 85.8 |
106.0 | 109.2 |
96.6 | 103.4 |
98.4 | 99.0 |
97.7 | 106.2 |
100.2 | 108.6 |
109.0 | 116.6 |
そこで,多くの場合データを集約します.集約方法としては,例えば平均をとる方法があります.先程の2集団の平均身長を計算してみると,どちらも実は100cmになります.ではこれをもって2つの集団は同じと言えるでしょうか.つまり,同一性の基準を平均の一致と定義することは妥当でしょうか.
妥当ではありません.例えば,この2集団の身長の分布をヒストグラムに示してみると次のようになります.
こうしてみると,2つの集団は平均は一致しても,身長の分布は違うことが分かります.その結果,中央値や,最大値,分散など,平均以外のデータを集約する値は2集団で異なります.
* | 平均 | 中央値 | 最大値 | 最小値 | 分散 | 標準偏差 |
---|---|---|---|---|---|---|
集団1 | 100.0 | 100.1 | 110.5 | 86.7 | 15.9 | 4.0 |
集団2 | 100.0 | 105.4 | 116.6 | 75.5 | 136.1 | 11.7 |
一方,2つの分布が等しければ,平均値だけでなく全てのデータの集約値は等しくなることが知られています(これは確率変数,統計量とは何かを理解すれば分かるのですが,これらについては後ほどお話するので,とりあえずは正しいとして受け入れて先に進みましょう)
そこで次の同一性の基準を採用します.
例えば,身長の分布が2集団で同一なら,他の点はさておき,身長については2集団は同一だと考えるのです.これを認めれば
という定義も自然に導かれるでしょう.
この同一性の定義の正当性は,直観的に次のようにも考えられます.引き続き身長を例に説明します.
個人の場合,身長が同じというのは,身長についての情報だけでは2人を見分けることができないことを意味しました.
であれば集団においても同様に,身長だけを測定しても2集団を見分けることができないとき,身長が同じと言っていいのではないでしょうか.
個人の身長を測定するとは,その人の身長を計測することでしたので,集団の身長を測定するとは,集団に属する人一人一人の身長を計測することでしょう.このとき,集団の1人1人は特別扱いせず,ランダムに1人ずつ取り出して,身長を測っていくとしましょう.
このとき,分布は相対度数=割合を示すので,身長の分布は,その集団からランダムに1人とってきたときに,身長がある値になる確率を表していると考えることができます.例えば集団1の分布をもう一度見ます.
これを見ると,96cm~98cmの人の割合は0.20なので,集団1からランダムに1人取り出した時,その人の身長が96cm~98cmになる確率は20%であることが分かります.他の身長についても同様に,ヒストグラムの縦軸の値は,1人取り出したときに,その身長になる確率を表していると考えられます.
一方,集団2をみると,
であり,96cm~98cmが取り出される確率は,0.02(=2%)ほどです.
ということは,集団1と2については,一人一人を取り出して身長を測っていけば,96cm~98cmの人がでてくる割合の違いで,どちらの集団なのかを判定できるわけです.例えば,100人取り出したときに,18人の身長が96cm-98cmであれば,それは集団1のはずです.逆に,例えば1人も96cm-98cmの人がいなければ,それは集団2のはずです.(もちろん他の身長がでてくる割合も違うのでそちらで判断してもいいでしょう.)
それでは,身長の分布が2集団で同じである場合はどうでしょうか.この場合,どの身長についても,その身長が計測される確率は2集団で同じになるので,身長の測定だけでは2集団を区別することができません.つまり,身長の分布が同じであれば,身長の測定だけで2集団を区別することはできないのです.これが集団の等しさを分布の等しさで考えてよいことの直観的な理由です.
以上から,分布の等しさで同一性を判断することにします.このようにすれば,2集団の大きさ,つまり集団を構成する人数が異なる場合であっても,2集団は等しくなり得ることが分かります.
さて,そもそも同一の集団を作ろうとしたのは,何のためだったか覚えていますか?薬の使用の有無以外には全く同じ2集団(薬群とプラセボ群)を作るため(そしての差を調べることで,薬の真の効果を測定するため)です.
しかし前回の話を思い出せば,この「同一の集団を作る」ということは,困難1「集める」を解決する方法でもあります.つまり,困難1は「母集団への介入の効果とサンプルへの介入の効果が同じと見なせるような良いサンプルを調べること」で解決できるのでしたが,これは「母集団と同一の集団と見なせるサンプルを作る」ことと同じです.
ということは,困難1.2はどちらも「同一の集団を作る」という問題に関わるものであり,その解決のためには,ここまでの話から,あらゆる性質の分布が同じ集団をつくることができれば十分です.それでは,どうやってあらゆる性質の分布が同じ集団をつくるか?これが次の問題です.
その根拠は後で説明します.また,分布とは正確には相対度数分布のことです.度数分布をグラフにしたのがヒストグラムです.
他のどの身長をとっても,その身長となる確率は等しいので,ランダムに人を取り出して身長を測ることを続けても,それがどちらの集団なのかを判定することはできません.逆に分布に違いがあれば,でてくる身長の頻度に違いがあるので,どちらの集団から取り出しているのかを判定することができます.もしくは,別の言い方をすると,2集団A,Bがあって,この2集団の身長の分布が同じであれば,最初Aからランダムに人を取り出して身長を測ることを繰り返していたとして,誰かが内緒で取り出す集団をBに入れ替えても,いつAとBが入れ替わったのかを判定することはできないということです.
以上から,ある点において2集団が等しい=その点についての分布が2集団で等しい,2集団が(完全に)等しい=あらゆる点について分布が2集団で等しいを採用することとしましょう.薬の効果を判定するためには,同一の集団を用意する必要がありましたが,今や個人を複製する必要はありません.あらゆる性質の分布が同じ集団をつくることができれば良いからです.逆に,もし2集団が何かしらの点で分布が異なる場合,例えば,身長の伸びを促進する遺伝子GBの分布が次のように異なっていれば,薬に対する効果と思っていたものは,実はこのGBの分布の差に起因していたことがありえ,集団の平均効果の差が薬の効果とはいえなくなります.