2集団が同一であるとは,2集団のあらゆる性質の分布が等しいこと,と定義しました.では,実際にあらゆる性質,私たちが知ることのできる性質も,知り得ない性質も全てが等しいような2集団はどうやって作るのでしょうか.
その方法がランダムサンプリングです.(無作為抽出とも言います.)
ランダムサンプリングとは,集団から等しい確率で1人1人をとってくることです.例えば6人の集団があります.彼ら1人1人に1~6の番号をふって,サイコロを1度投げ,出た目に対応する番号の人を選ぶことにすれば,どの人も1/6で選ばれるので,それはランダムサンプリングになります.
ある母集団Qからランダムサンプリングでサンプルを作ることを考えます.例えばQの身長の分布が次のようだったとしましょう.
このように母集団の分布や,母平均$µ$や母分散$σ^2$を実際に知るのは困難なのですが,説明のために値を知っているものとして話を進めます.
このとき,Qからランダムサンプリングすれば,例えば96-97cmの人がでる確率は分布から読み取れるように0.06=6%になります.であれば,100人サンプリングすると,96-97cmの人は平均して\(0.06 \cdot 100 = 6\)人選ばれることになります.これを全体の人数100で割って割合にすれば,0.06となってQと一致します.他の身長についても同様に考えると,母集団Qとサンプルに含まれる人数は平均して同じ割合になることが分かります.よって,身長の分布は平均すると一致します.
実際,集団Qから100人サンプリングした場合を5つ見てみると次のようになります.96cm-97cmの人は,4%の場合もあれば,9%の場合もあります.そして,全体の分布もQと同じようには見えませんし,どのサンプル平均$m$も,集団Qの母平均$μ$とは一致していません.
ですが,サンプリングしてくる人の数(これをサンプルサイズと言います)を増やすとどうでしょうか.つまり,母集団Qから抜き出す人数をもっと増やすのです.こうすれば,サンプル中の96-97cmの割合は8%に近づいていきます.これは公平なコインをひたすらに投げていけば,出たオモテの割合が1/2に近づいていくことと同じです.
よって,ランダムサンプリングにした人数が十分多ければ,母集団Qとサンプルの身長の分布は一致すると見なせるはずです.実際,100万人サンプリングした場合を5つ見てみると次のようになり,どのサンプルでも,サンプル平均$m$は母平均$μ=100.5$と,ほとんど一致していることが分かります.
よって,十分大きいサンプルでは分布は一致し,$m=μ$なのです.ということは,最初に示した集団Qの分布や平均を知らなくても,そこから十分にたくさんランダムサンプルしたサンプルをみれば,母平均を推定することができることが分かります.
身長以外の性質の分布についても,全く同じ理屈でサンプルサイズが十分大きければ,母集団とサンプルで分布は一致します.私たちが知り得る性質も,知り得ない性質も,全ての性質の分布が一致するのです.つまり,母集団とサンプルは同一の集団とみなすことができます.
よって,困難1.「母集団を集めることができない」は,母集団からランダムサンプリングして,十分なサンプルサイズをもつサンプルを作ることで解決できます.こうすれば,そのサンプルは母集団と同一の集団と見なせるからです.
困難2の複製の問題も解決されます.複製する必要はないからです.そのかわりに,
という方法をとります.元の集団のサイズがとても大きければ,半分を取り出したものにも十分なサンプルサイズがあると見なせます.よって,元の集団と分割後の2つの集団は同一の集団です.この方法は,集団の構成員1人1人に1/2の確率で(つまりランダムに)薬を飲むのかプラセボを飲むのかを割り当てても同じことなので,ランダム割当とも呼ばれます.
こうして2つの困難は次のように解決されます.
これで実際に実行可能な実験の手順が分かりました.
これで複製や時間操作などの圧倒的困難から逃れて,理屈としては実行可能になりました.しかし,十分に大きいサンプルを作る,例えばサンプルを100万人集めて調べることも難しいことです.
確かにサンプルサイズが十分大きくなければ$m=μ$とはならないので,サンプルから薬の効果を完全に正確・確実に求めることはできないのですが,もっと現実的な,小さいサンプルのときには,ただ$m \neq μ$ということしか分からないのでしょうか?そんなことはないはずです.
そこで,もう一度集団QからサンプルサイズN=100のサンプルを,いくつか取り出したものを見てみます.
分布は平均的にしか一致しないので,サンプル平均の値はバラバラですが,どのサンプル平均も母平均$µ=100.50$と近い値であることが分かります.
そこで,サンプル平均は母平均からどのくらい離れるものなのかを数字で知りたくなります.それを知るために
ということをやってみます.つまり,N=100のサンプルをたくさんとってきて,それぞれサンプル平均を計算し,その分布をヒストグラムに表して,真の母平均からの離れ具合を視覚化してみるのです.結果は次のようになります.
ここから言えるのは次のことです.
1.については「サンプル平均の期待値は母平均と一致している」というふうにも言い換えられます.期待値とは直観的には,
のことです.この例では,
ことから,「サンプル平均の期待値は母平均と一致している」というふうにいえます.これを$E[m] = µ$で表しましょう.Eは期待値(Expected value)の頭文字です.期待値については4.Aにも解説を書いたので,そちらも見てください.
次に2についてです.2は「サンプル平均の分散は,一つ一つのサンプルの分散よりもずっと小さい」でした.これは,サンプルサイズ100であるサンプル1つの分布と,サンプルサイズ100のサンプル平均の分布を比べてみるとよく分かります.
前者の分散は約19なのに対して,後者の分散は約0.18です.ヒストグラムの横軸の範囲が違うことに注意しましょう.
サンプルサイズを変えて同様にサンプル平均の分布を作ってみると,さらに事態がはっきりします.例えば,サンプルサイズを200人にした場合で,サンプル平均の分布を調べてみます.つまり,
その結果は次のようになります.
ここから言えるのは次のことです.
1番目の事実は良いでしょう.サンプルサイズNによらず,サンプル平均は平均的には母平均と一致しているのです.
それよりも2番目の事実です.ここから,サンプルサイズを大きくしていけば,分散が小さくなる,つまり,サンプル平均の母平均からの散らばり,誤差が平均して小さくなっていくことが予想できます.そして最終的に十分大きいサンプルでは,分散は0に近づいて,母平均からの散らばりを0と見なせるために,$m=µ$となるのでしょう.実際,サンプルサイズN=100,200,400,1000として,1万個サンプルをとり,サンプル平均の分布を作ったものは次のとおりです.ただし横軸の範囲は見やすいように揃えてあります.
以上から,サンプルと母集団の関係について次のことが言えます.ただし,サンプル平均の分散を$V[m]$で表しています.
現実的にはサンプルサイズNは$V[m]=0$と見なせるほど大きくはできません.それゆえ,真の値$µ^D-µ^P$そのものを知ろうとするのではなく,サンプル平均の差$m^D - m^P$とのずれの量を評価する方法が必要になります.例えば,あるサンプルについて,$m^D - m^P= +5cm$となって,真の値とのずれは2cm以内,つまり,$3<µ^D-µ^P<7$ということさえ分かれば,十分に意思決定することできます.
これでサンプルサイズNが十分に大きくない場合の,実験の手順が分かりました.
サンプルサイズが大きくないので,
ことに注意する必要があります.つまり,ランダム抽出もランダム割当も平均的に同一の集団を作ることを保証してくれるだけなので,実際のサンプルではどうなっているかに注意を配る必要があります.
薬の効果を調べる実験を行うために残された問題は次の2つです.
1点目については,もちろん,可能な限り多く集めるという手も1つですが,これは意思決定の方法としては貧弱です.サンプルは多ければ多いほど調べるのにコストがかかるので,必要もないのにたくさん集める必要はありません.誤差がある程度あっても意思決定に困らないことが分かっているなら,許容できる誤差をもとに,最小限必要になるサンプル数を事前に求めておき,コストとの兼ね合いからサンプル数を決めるのが良いでしょう.
2点目については,このシリーズの前半からの姿勢の変化を感じ取ってください.前半では正しい意思決定のために完全に確実な方法は何かということを理解しました.このような根本原理を理解することは非常に大切です.しかし,現実的には,完全に確実な方法を実行する必要がある場面はありません.
例えば,真の値100.498023114だったとしましょう.このとき,大体100前後(例えば90~110に真の値があること)であることが分かれば十分な場合もあれば,100.5に近いこと(例えば100.45~100.55に真の値があること)まで知る必要がある場合もあります.例えば高速を運転しているときは,車の速度が大体100km/hであることが分かれば十分ですし,なにかの部品を作るときには正確に100.5cmに近いことを保証する必要があるかも知れません(もちろん,その場合でもぴったり100.498023114cmにする必要などありません).このように状況に応じて,真の値から許容できる誤差が決まるため,完全に確実な方法である方法よりも,ニーズに合わせて低コストで実行可能な,不確実だけど誤差がどれだけあるかは分かる方法のほうが好ましいのです.
ということで,サンプル数を十分に集めて完全に確実に真の値を知る,という姿勢から,許容できる誤差とコストを定量的に評価して,適切なサンプルから真の値を推定するという姿勢にシフトしていきます.
誤差を定量的に求めるためには,今までラフに考えていた部分をもう少し厳密に正確に見ていく必要があります.その代表は分布です.
期待値という概念は,長期的に賭けに参加したときの損得の計算に由来します.
例えば,コインのオモテ・ウラどちらが出るかを予想して,当たったら掛け金の3倍,外れたら掛け金没収というギャンブルがあります.掛け金100円なら当たったときは300円得られて,外れたときは0円得られます.
掛け金100円でこのゲームを延々とやり続けて,合計N回やったとしましょう.このとき,Nが十分大きいので,公平なコインであれば,N/2回当たって,N/2回外れるはずです.もちろん完全にピッタリN/2回というわけには行きませんが,Nが大きければほとんどN/2回と見なせるということです.これについては実験しているサイトがあるのでそちらを参照.
であれば,N回で得られるお金は合計$300\cdot \frac{1}{2} N + 0 \cdot \frac{1}{2} N =150N$円です.ゲーム一回あたりに換算,つまり平均をとると,150円となります.これがこのゲームの期待値です.つまり,一回やれば平均150円が得られて,掛け金は100円なので,平均して1回あたり50円の儲けになります.1ゲームごとに50円が貰えるわけなので,このギャンブルはやるべきでしょう.
素朴には,あるギャンブルの期待値が掛け金を上回るのなら,それはやり続ければお金が増えるゲームなのでやるべき,ということになります.(しかし,これは素朴な考え方で,期待値が無限大であっても,儲けにならないギャンブルも存在します.興味がある人は,そのような代表例である,マーチンゲール法を解説しているyoutubeの動画も見てみてください.)
4.8において,サンプル平均の期待値は母平均と一致すること,つまり$E[m] = µ$を確認しました.
サンプル平均のように,サンプルから計算される値(例えばサンプル平均.一般には統計量といいますが,詳しい説明は後ほど)の期待値が,母集団についての何らかの値(例えば母平均.一般には母パラメータといいますが,それも後ほど)と一致するとき,その値を普遍統計量といいます.これらの用語を使うと,サンプル平均は母平均の普遍統計量だと言えます.
一方,これも詳しくは後ほどやりますが,サンプルの分散は母分散の普遍統計量ではありません.つまり$E[s^2] \neq σ^2$なのです.
普遍は英語ではunbiased,つまりバイアスがかかっていないという意味です.バイアスは系統誤差ともいいます.普遍でない統計量から母パラメータを推定しようとする場合には,期待値が母パラメータと一致しないことから,ずれが常にあることになります.これは図でいうと,右の2つの状態です.的の真ん中が知りたい母パラメータで,サンプルをとるごとに,ダーツを投げられる(統計量から母パラメータを推定する)わけですが,真ん中からは平均してずれています.一方普遍(unbiased)であれば,平均的には真ん中に一致しています(左2つ).
平均的には真の値と一致しても,どれだけ散らばりがあるのかでpreciseかimpreciseかに分かれます.これは分散の別の表現と捉えてもいいでしょう.系統誤差と対比して偶然誤差と言う言葉もよく使われます.preciseであれば,散らばりは小さく,さらにunbiasedなら真の値を良く推定できることになります.しかし,preciseであっても,バイアスがあれば,ただ外れた値に揃うだけなので意味がありません.
ということは第一には普遍(unbiased)であることが重要です.だからこそ普遍統計量は重要なのです.では,普遍統計量がいくつもある場合には最も良いものをどう選べばいいでしょうか.もちろん精度(precision)が高いものを選べばいいですね.ということで,普遍統計量の中でも誤差が最も小さくなるようなものを最良普遍推定量といいます.例えばサンプル平均は最良普遍推定量であることが知られています.
ほとんど同じ概念として正確度(accuracy)があります.これはunbiasedと同じことです.つまりバイアスがなければ正確なのです.ちなみに,precisionの同義語としてはreliabilityが,accuracyの同義語としてはvalidityがあります.同じ意味をもつ異なる似た用語が多いので混乱しますが,ダーツの図で概念が理解できれば用語を覚える必要ありません.
そして,サンプル薬群は
母集団からランダム抽出=>ランダム割当=>薬投与によってできた群ですが,
母集団を複製(ランダム割当に相当)=>薬投与=>母集団の薬群からのランダムサンプリング(ランダム抽出に相当)というふうに,母薬群からのランダムサンプルでできた群だと見ることもできることに注意しましょう.こう考えると,サンプル薬群は,母薬群からランダムサンプルでできた平均的には同じ集団なので,サンプル薬群の平均$m^D$から母薬群の平均$µ^D$を推定することができます.これは,集団Qの平均をサンプリングしたサンプルから推定できたことと全く同じことです.
サンプルプラセボ群についても同様に母プラセボ群からのランダムサンプルであると考えられるので,$m^P$から$µ^P$を推定できます.こうすれば,サンプルの差\(m^D - m^P\)と,真の薬の効果\(µ^D - µ^P\)の誤差を考えることも可能のように思えてきます.