前回の話を整理しましょう.まずヒストグラムは$a≦x≦b$となる確率\( P(a \leqq x \leqq b ) \)に具体的なa,bをいくつか代入した値を視覚的に表したものでした.
一方,分布とは全てのa,bについて\( P(a \leqq x \leqq b ) \)の情報の集まりでした.そこで,分布をヒストグラムで表すのは止めて,\( p(a,b) = P(a \leqq x \leqq b ) \)を満たす関数で分布を表すことにしました.そして\( p(a,b) \)自体を数式で表すために,
\[p(a,b) = \int_{a}^{b} f(x) dx \]
となる関数f(x)を定めることにし,身長の分布の場合には,f(x)として正規分布
\[f(x) = \frac{1}{\sigma \sqrt{2\pi}}e^{\frac{-(x-\mu)^2}{2\sigma}} \]
が当てはめられることを最後に天下り的に主張しました.
この主張の正当性を調査しましょう.そのためには,まず正規分布$f(x)$の性質を理解します.$y=f(x)$として,ここでは次のことが分かれば十分です.
以上を理解した上で,geogebraのアプリでμとσをいろいろ動かして正規分布のグラフがどう変わるかを見てみましょう.
理解してもらいたいのは次のことです.
さらに別のgeogebraのアプリで「σとグラフの山の幅」の関係を定量的に理解します.具体的には,次のことを理解してください.
さて,グラフを動かしていると,正規分布のグラフ自体が,身長の分布のヒストグラムと似た形をしていることに気づきます.
形が同じになる理由を理解するために正規分布からヒストグラムを生成してみましょう.前提として次のことをおさえましょう.(ビンとはヒストグラムの1つ1つの縦棒のことです)
つまり,1つ1つのビンの横幅がnで,高さがp(a,a+n)であれば,それは幅nのヒストグラムになっているということです.
このことを用いて,例えば階級の幅が1であるヒストグラムを正規分布から作るためには以下のようにします.
もしくは,barの幅が2であるヒストグラムを正規分布から作るためには以下のようにします.
幅が2の場合は,高さを2倍する必要があることに注意しましょう.一般に,幅がnの場合も同様です.
以上から,もしある分布が正規分布をしているのであれば,縦軸の倍率を別にして,そのヒストグラムは正規分布と似た形になることが分かります.逆に,ヒストグラムが正規分布のような形をしていることは,正規分布を当てはめる根拠になります.
例えば17歳の日本人男女の身長の分布を見ると,これは正規分布と形がよく似ていますから,Dr.Kの実験においても,身長には正規分布が当てはめられるでしょう.
正規分布が当てはめられることが分かれば,次の問題はμとσの値をどうするか,ということです.ここでもgeogebraのアプリで実際にデータに当てはまるμとσを動かして見つけてみましょう.
わざとらしく,データの平均と標準偏差が書いてあることに気づきましたか?いろいろと動かしてみると,
となるときに,ヒストグラムと正規分布の適合度が良くなることが分かります.
一般的に主張したいのは次のことです.
この章の残りの部分では,これが成り立つことを説明していきますが,完全に理解するためには区分求積法の考え方を理解している必要があります.この説明を理解することは,統計を学習する上で本質的なものではないので,難しい話に興味がない人や,6.5で実験から上の主張を受け入れられるよ,という人は先に進んでください.
区分求積法の考え方自体は,高度な計算を要するものではなく,積分という概念についてのものなので,それほど事前知識がなくとも理解できます.このサイトで区間が0-1の場合を,このサイトで区間がa-bの場合を理解しましょう.また,このyoutubeの動画で和と積分の関係が理解できると思います.
ではやっていきましょう.まず,平均とは何かを理解します.例としてサイコロを100回投げたときに出る目の平均を考えます.実際のデータは次のようになりました.
回目 | サイコロの目 |
---|---|
1 | 3 |
2 | 1 |
3 | 1 |
4 | 2 |
5 | 5 |
6 | 6 |
7 | 2 |
8 | 6 |
9 | 5 |
10 | 5 |
11 | 3 |
12 | 1 |
13 | 3 |
14 | 4 |
15 | 4 |
16 | 6 |
17 | 4 |
18 | 6 |
19 | 3 |
20 | 6 |
21 | 1 |
22 | 2 |
23 | 5 |
24 | 4 |
25 | 3 |
26 | 4 |
27 | 1 |
28 | 5 |
29 | 3 |
30 | 2 |
31 | 2 |
32 | 4 |
33 | 3 |
34 | 4 |
35 | 2 |
36 | 5 |
37 | 2 |
38 | 5 |
39 | 4 |
40 | 5 |
41 | 6 |
42 | 2 |
43 | 5 |
44 | 4 |
45 | 1 |
46 | 3 |
47 | 2 |
48 | 1 |
49 | 4 |
50 | 4 |
51 | 6 |
52 | 6 |
53 | 5 |
54 | 3 |
55 | 3 |
56 | 5 |
57 | 5 |
58 | 4 |
59 | 4 |
60 | 6 |
61 | 5 |
62 | 1 |
63 | 1 |
64 | 4 |
65 | 5 |
66 | 2 |
67 | 6 |
68 | 1 |
69 | 6 |
70 | 6 |
71 | 4 |
72 | 4 |
73 | 2 |
74 | 1 |
75 | 3 |
76 | 5 |
77 | 5 |
78 | 3 |
79 | 3 |
80 | 6 |
81 | 3 |
82 | 1 |
83 | 5 |
84 | 5 |
85 | 6 |
86 | 2 |
87 | 4 |
88 | 3 |
89 | 1 |
90 | 4 |
91 | 2 |
92 | 4 |
93 | 1 |
94 | 5 |
95 | 2 |
96 | 3 |
97 | 4 |
98 | 3 |
99 | 5 |
100 | 4 |
k回目に出た目を\( X_k \)とすれば平均mは
\( m = \displaystyle \frac{1}{100}\sum_{k=1}^{100} X_k = 3.61\)
と求めることができます.これを相加平均と呼びましょう.
ここで,1~6の目が出た回数でデータを整理してみます.
目 | でた回数 | でた割合 |
---|---|---|
1 | 14 | 0.14 |
2 | 14 | 0.14 |
3 | 17 | 0.17 |
4 | 21 | 0.21 |
5 | 20 | 0.20 |
6 | 14 | 0.14 |
こうすれば,平均は,
\(m = \frac {1 \cdot 14 + 2 \cdot 14 + 3 \cdot 17 + 4 \cdot 21 + 5 \cdot 20 + 6 \cdot 14}{100} = 3.61\)
と求めることもできます.各項を分母の100で割ると,
すなわち,サイコロの目\( k \)がでた割合を\( p_k \)すると,
\( m = \displaystyle \sum_{k=1}^{6} k \cdot p_k\)
で平均が計算できるわけです.これを割合平均と呼びましょう.(この呼び方は一般的な呼び方ではなく,ここでの説明のための呼び方です)
ここでサイコロの目の分布をヒストグラムにしてみます.
これは身長の分布と似たものに見えます.それでは,身長のヒストグラムからも割合平均を使って平均を求めることはできるのでしょうか.
できません.なぜなら,ヒストグラムの1つ1つの縦棒(ビン)が表すのは,xが特定の値となる確率$p_x$ではなくある範囲となる確率$P(x_k \leqq x \leqq x_{k+1})$だからです.
問題は,階級幅が大きいことにあります.というのも,階級幅が十分小さければ,$P(x_k \leqq x \leqq x_{k+1}) = p_{x_k}$と見なせるので,割合平均で平均を求められるからです.では仮に,幅Δx(<<1)のヒストグラムに対して,良いμ,σを選んで,正規分布をうまく当てはめられたとしましょう.このときヒストグラムの高さを正規分布と合わせるためには,各ビンの高さを1/Δx倍にする必要があることに注意してください.
当てはめのイメージとして次の図も参照してください.$f(x)$が正規分布で,$a=-∞,b=∞$として$Δx$の階級幅で当てはめた場合を想像すると良いでしょう.
当てはめた1つのビンに注目すると$Δx$が十分小さい時,つまり$Δx \ll 1$のとき,次のようになっています.
ゆえに
\( m = \displaystyle \sum_{k=0}^{n} x_k \cdot p_{x_k} = \displaystyle \sum_{k=0}^{n} x_k \cdot p(x_k,x_{k+1}) = \displaystyle \sum_{k=0}^{n} x_k \cdot f(x_k) \cdot \Delta{x}\)
が示せます.あとは\(\lim_{ \Delta{x} \to 0} \)とすると,(区分求積法と同じように考えて)
\( \lim_{ \Delta{x} \to 0} \displaystyle \sum_{k=0}^{n} x_k \cdot f(x_k) \cdot \Delta{x} = \int_{-\infty}^{+\infty} xf(x) dx \)
\[ m = \int_{-\infty}^{+\infty} xf(x) dx \]
が示せました.
さて,f(x)が正規分布,すなわち,
\[f(x) = \frac{1}{\sigma \sqrt{2\pi}}e^{\frac{-(x-\mu)^2}{2\sigma}} \]
のときは,
\[\int_{-\infty}^{+\infty} xf(x) dx = \mu \]
であることが知られています.(証明はこのサイトを参照.単なる計算なのでスキップ可です.)
それゆえ,
\[ m = \int_{-\infty}^{+\infty} xf(x) dx = \mu \]
で,データの平均と$\mu$は一致します.
分散についても同様で,データの分散を\(s^2\)とすると,$m=µ$なので,
\[ s^2 = \sum_{k=0}^{n} (x_k - \mu)^2 p_k \]
式変形して,
\[ s^2 = \sum_{k=0}^{n} (x_k^2 -2x_k\mu +\mu^2) \cdot p_k \]
平均のときと同様に考えると,
\[ s^2 = \int_{-\infty}^{+\infty} (x^2f(x) -2\mu xf(x) +\mu^2f(x)) dx\]
となり,ここで,
\[\int_{-\infty}^{+\infty} x^2f(x)dx = \sigma^2 + \mu^2 \]
\[\int_{-\infty}^{+\infty} xf(x) dx = \mu \]
であることを使うと,(証明はこのサイトを参照.単なる計算なのでスキップ可です.)
\[ s^2 = \sigma^2 + \mu^2 -2\mu^2 + \mu^2 = \sigma^2\]
となって,データの分散と$\sigma^2$は一致します.以上から,主張を示すことができました.
これで,母集団の分布は母平均を$µ$と母分散を$σ^2$とした正規分布と同一視できることが分かりました.これで誤差を定量的に評価する準備が整いました.
ここで,また,一般的に正規分布$f(x)$を$N(µ,σ^2)$と表すこともあります.例えば,$μ=0,σ^2=1$のとき,
$$f(x)= \frac{1}{\sqrt{2\pi}}e^{\frac {-x^2}{2}}$$
となりますが,これを$N(0,1)$で表します.
そもそもxがぴったり特定の値となる確率は0なので,これは当たり前なのですが,一方でサイコロの目の場合にはピッタリ1となる割合を表すことができていました.この違いは,身長は実数という連続的な値をとるのに対して,サイコロの目は1~6の整数,つまり飛び飛びの値(これを離散的といいます)しか取らないことによります.
さらに,サイコロの目は取りうる値が有限個(1~6の6つ)なので,このようにヒストグラムをかけば,それはサイコロの目の分布と一致します.取りうる値が有限なら,ヒストグラムでも全ての場合についての$P(x=k)$(サイコロの目xがkになる確率=割合)を列挙してグラフ化できるからです.一方,身長は連続的で無限に色々な値をとるので,ヒストグラムで分布は表現しきれません.
このことから,サイコロの場合には,実際やってみたようにヒストグラムで表される割合平均で求めた平均が相加平均と一致します.一方,身長のように連続的な値の分布の場合にはヒストグラムからの割合平均で平均を求めようとしても,うまくいきません.