ホーム

7 確率変数・確率分布に慣れる

7.1 今までの流れ

前回までで,母集団の身長の分布は

\[f(x) = \frac{1}{\sigma \sqrt{2\pi}}e^{\frac{-(x-\mu)^2}{2\sigma}} \]

に,$µ$=母平均,$σ^2$=母分散(これは$σ$=母標準偏差とすることと同じ)を代入したものだと考えることができました.これを$N(μ,σ^2)$で表すことにします.

このことの意義をもう一度考えてみます.今や母集団の分布は$N(μ,σ^2)$そのものなので,分布を決めるのは,母平均$μ$と母分散$σ^2$の2つだけです.つまり,平均と分散の2つの情報だけを知れば,あらゆるa,bについての\( P(a \leqq x \leqq b ) \)を,f(x)を積分することで求められるのです.

これは,数式を当てはめなければ考えられないことです.分布を単に,

\( P(a \leqq x \leqq b ) = \frac {a \leqq x \leqq b となるxの数} {母集団の要素数} \)

と捉えてしまっては,分布とは無限の情報の集まりになります.あらゆるa,bについて,$a \leqq x \leqq b$となるxの数を知る必要があるからです.一方,正規分布という構造を当てはめたことで,母集団の分布を決めるために知るべきことは,母平均$μ$と母分散$σ^2$だけになりました.つまり,サンプルから母集団の分布を推定するというとき,今までは無限の情報を推定しなければいけなかったのが,母平均と母分散という二つの母パラメータを推定するだけで良くなったのです.

ここで母パラメータという言葉を使うのは妥当です.なぜなら,μとσは正規分布f(x)に含まれるパラメータですし,母平均と母分散によって,$μ$と$σ^2$の値は決まるからです.このように,母集団の分布の形を決めるパラメータのことを,母パラメータとか単にパラメータとか母数といいます.例えば,正規分布の場合は,母平均$μ$と母分散$σ^2$が母パラメータです.この用語を使うと,サンプルから母パラメータを推定する際の誤差を定量化するのが今後の目標になります.

7.2

母集団から1人ランダムサンプリングしたとき,その人の身長がXcmとなる確率は,その母集団の平均をμ,分散を$σ^2$とする正規分布$N(μ,σ^2)$で与えられます.この事実を「Xは正規分布$N(μ,σ^2)$に従う」とか「Xは正規分布$N(μ,σ^2)$で生成される」と言い, $X \sim N(μ,σ^2)$ で表します.

例えば,母集団が正規分布と見なせて,母平均=0,母分散=1の場合,そこからランダムサンプルした$X$は$X \sim N(0,1)$となるわけです.$N(0,1)$は標準正規分布と呼ばれる最も重要な正規分布です.

一般的に,$X$のように確率に従って,いろいろな値をとる変数を確率変数といいます.そして確率変数が従う確率を定める関数が確率分布です.つまり,確率変数は確率分布によって,ある値となる確率が決められているのです.この例ではサンプルの身長Xcmが確率変数で,正規分布$N(μ,σ^2)$が確率分布です.

母集団の身長データは確定したものであり,確率変数ではないことに注意してください.一人一人の身長は決まったものでランダムに動くことはありません.そこからランダムサンプリングすることがサンプルの身長Xを確率変数としています.

7.3

他の確率変数の例として,最も簡単なものはコイン投げです.コイン投げの結果をXとしましょう.ただし,オモテをX=1,ウラをX=0で表します.このとき,Xは確率変数であり,Xが従う確率分布は以下のようにヒストグラムで表せます.右は公平なコインの場合,左はウラが出やすいコインの場合です.

Xの確率分布をヒストグラムで表せるのはXが0,1の2つの値しか取らないからです.Xの確率分布はベルヌーイ分布と呼ばれます.このことをまとめて「コイン投げを1回して出る目Xはベルヌーイ分布に従う確率変数である」と言います.言葉は難しく聞こえますが,言っていることは難しくありません.

ということさえ理解できれば大丈夫です.オモテが出る確率をpとして,ベルヌーイ分布を式で表せば次のようになります.

$$P(X=1)=p,P(X=0)=1-p$$

7.3

ベルヌーイ分布は簡単な例過ぎて逆に分かりづらいかもしれません.別の例としては,n回コインを投げたときにオモテが出る回数Xを考えることができます.これもコインをn回投げるごとに,n/2回でたり,1回しかでなかったり,と色々な値をとるので,確率変数です.一般に1回コインを投げてオモテが出る確率がpなら,n回投げた時のオモテの回数X=kとなる確率$P(X=k)$は,

$$P(X=k) = {}_n \mathrm{ C }_k p^{k} (1-p)^{n-k}$$

で与えられるので,これが確率分布になります.確率分布とは,確率変数がある値になる確率を定める関数であったことを思い出しましょう.この確率分布を二項分布といいます.

二項分布はベルヌーイ分布の一般系です.実際,n=1とすればベルヌーイ分布に一致します.最後に$n=12,p=0.5$の二項分布(公平なコインを12回投げた時オモテが出る回数の分布)の図を載せましょう.

7.4

一般的には,コイン投げやサイコロ投げのように飛び飛びの値しかとらない確率変数を離散的といい,身長や体重のように無限にいろいろな値を取りうる確率変数を連続的といいます.この2つのタイプの確率変数が従う確率分布の違いは一様分布を考えるとよく分かります.

公平なサイコロを1回投げて出る目Xを考えます.Xは1,2,3,4,5,6の値をとる離散的な確率変数であり,離散一様分布に従います.離散一様分布は式で表すと次のとおりです.

$$P(X=k)=\frac{1}{6} \hspace{10pt} (1 \leqq k \leqq 6)$$

一般的に1~Nまでの値をとる場合には,離散一様分布は,

$$P(X=k)=\frac{1}{N} \hspace{10pt} (1 \leqq k \leqq N)$$

となります.

一方,その確率分布をする母集団からランダムに1つ選ぶと,1~6までの実数が等確率で出てくるような確率分布を考えます.この場合,でた値xは1~6までの実数,つまり連続的な値をとるので,身長の場合と同じく,xがぴったり1になる確率,などを考えることはできません.そこで,$a \leqq x \leqq b$となる確率$P(a \leqq x \leqq b)$は,

$$f(x) = \frac{1}{5} \hspace{10pt} (1 \leqq x \leqq 6)$$

を用いて,

$$P(x)=\int_a^b f(x) dx$$

で求められます.これは一様分布と呼ばれます.実際に

$$P(x)=\int_1^6 \frac{1}{5} dx$$

を計算すると,1になる,つまり正規化条件を満たしていることを確認しましょう.(ですので,$\frac{1}{6}$ではなく,$\frac{1}{5}$が正しいのです.)

一般的にa~bまでが等確率で出る場合には,

$$f(x) = \frac{1}{b-a} \hspace{10pt} (a \leqq x \leqq b)$$

となります.ただし,$a \leqq x \leqq b$以外のときは$f(x)=0$です.

7.5

以上から分かる通り,離散的な確率変数の場合,確率分布はX=kとなる確率を直接的に関数で表します.このような関数を確率質量関数といいます.

ベルヌーイ分布 : $P(X=1)=p,P(X=0)=1-p$
二項分布 : $P(X=k) = {}_n \mathrm{ C }_k p^{k} (1-p)^{n-k}$
離散一様分布 : $P(X=k)=\frac{1}{N} \hspace{10pt} (1 \leqq k \leqq N)$

は全て確率質量関数です.

一方で,連続的な確率変数の場合は,X=kとなる確率は0であるゆえ,確率分布は直接的にX=kとなる確率を表すことはできないので,関数f(x)を積分することで$P(a \leqq x \leqq b)$を表します.f(x)は一般的には確率密度関数と呼ばれます.

正規分布:$f(x) = \frac{1}{\sigma \sqrt{2\pi}}e^{\frac{-(x-\mu)^2}{2\sigma}}$
一様分布:$f(x) = \frac{1}{b-a} \hspace{10pt} (a \leqq x \leqq b)$

は全て確率密度関数です.(一様分布と$P(a \leqq x \leqq b)$で同じ記号a,bを使っているのがややこしいですが,これらのa,bは同じ記号を使っているだけの別物です.分かりづらければ,例えば一様分布のaをcにbをdに変えてもいいでしょう.)

イメージとしては密度を足し合わせることで質量になるように,確率密度関数を積分することで,Xがある値となる確率である値を表すことができる,つまり,確率質量関数と同じものを表すことができるようになるのです.

これらの分布以外にも色々な分布がありますが,全ての確率分布はギャンブルから生まれる,つまり,コイン投げ(ベルヌーイ分布や二項分布など)とサイコロ投げ(一様分布)から導くことができるといっても過言ではありません.しかし王様は正規分布です.詳しい話は後ほどしましょう.

前へ ホーム 次へ