ホーム

6 正規分布を理解し,分布に当てはめる

6.1 前回の振り返り

前回の話を整理しましょう.まずヒストグラムは$a≦x≦b$となる確率\( P(a \leqq x \leqq b ) \)に具体的なa,bをいくつか代入した値を視覚的に表したものでした.

一方,分布とは全てのa,bについて\( P(a \leqq x \leqq b ) \)の情報の集まりでした.そこで,分布をヒストグラムで表すのは止めて,\( p(a,b) = P(a \leqq x \leqq b ) \)を満たす関数で分布を表すことにしました.そして\( p(a,b) \)自体を数式で表すために,

\[p(a,b) = \int_{a}^{b} f(x) dx \]

となる関数f(x)を定めることにし,身長の分布の場合には,f(x)として正規分布

\[f(x) = \frac{1}{\sigma \sqrt{2\pi}}e^{\frac{-(x-\mu)^2}{2\sigma}} \]

が当てはめられることを最後に天下り的に主張しました.

6.2 正規分布$f(x)$は$x$についての関数である

この主張の正当性を調査しましょう.そのためには,まず正規分布$f(x)$の性質を理解します.$y=f(x)$として,ここでは次のことが分かれば十分です.

6.3 正規分布$f(x)$のグラフを動かしてみる

以上を理解した上で,geogebraのアプリでμとσをいろいろ動かして正規分布のグラフがどう変わるかを見てみましょう.

理解してもらいたいのは次のことです.

さらに別のgeogebraのアプリで「σとグラフの山の幅」の関係を定量的に理解します.具体的には,次のことを理解してください.

6.4 正規分布$f(x)$から身長のヒストグラムを生成する

さて,グラフを動かしていると,正規分布のグラフ自体が,身長の分布のヒストグラムと似た形をしていることに気づきます.

形が同じになる理由を理解するために正規分布からヒストグラムを生成してみましょう.前提として次のことをおさえましょう.(ビンとはヒストグラムの1つ1つの縦棒のことです)

つまり,1つ1つのビンの横幅がnで,高さがp(a,a+n)であれば,それは幅nのヒストグラムになっているということです.

このことを用いて,例えば階級の幅が1であるヒストグラムを正規分布から作るためには以下のようにします.

もしくは,barの幅が2であるヒストグラムを正規分布から作るためには以下のようにします.

幅が2の場合は,高さを2倍する必要があることに注意しましょう.一般に,幅がnの場合も同様です.

6.5 ヒストグラムの形が正規分布に似ていれば正規分布を当てはめられる

以上から,もしある分布が正規分布をしているのであれば,縦軸の倍率を別にして,そのヒストグラムは正規分布と似た形になることが分かります.逆に,ヒストグラムが正規分布のような形をしていることは,正規分布を当てはめる根拠になります.

例えば17歳の日本人男女の身長の分布を見ると,これは正規分布と形がよく似ていますから,Dr.Kの実験においても,身長には正規分布が当てはめられるでしょう.

日本人17歳男女の身長分布

6.6 正規分布を当てはめてみる

正規分布が当てはめられることが分かれば,次の問題はμとσの値をどうするか,ということです.ここでもgeogebraのアプリで実際にデータに当てはまるμとσを動かして見つけてみましょう.

わざとらしく,データの平均と標準偏差が書いてあることに気づきましたか?いろいろと動かしてみると,

となるときに,ヒストグラムと正規分布の適合度が良くなることが分かります.

6.7 μ=母平均,σ^2=母分散とした正規分布が当てはまる

一般的に主張したいのは次のことです.

母集団のある性質の分布に正規分布が当てはめられるなら,$μ=母平均$,$σ^2=母分散$とした正規分布を当てはめればよい.

6.8 この後の内容は数学的にやや高度な内容を含む

この章の残りの部分では,これが成り立つことを説明していきますが,完全に理解するためには区分求積法の考え方を理解している必要があります.この説明を理解することは,統計を学習する上で本質的なものではないので,難しい話に興味がない人や,6.5で実験から上の主張を受け入れられるよ,という人は先に進んでください.

区分求積法の考え方自体は,高度な計算を要するものではなく,積分という概念についてのものなので,それほど事前知識がなくとも理解できます.このサイトで区間が0-1の場合を,このサイトで区間がa-bの場合を理解しましょう.また,このyoutubeの動画で和と積分の関係が理解できると思います.

6.9 相加平均

ではやっていきましょう.まず,平均とは何かを理解します.例としてサイコロを100回投げたときに出る目の平均を考えます.実際のデータは次のようになりました.

回目 サイコロの目
1 3
2 1
3 1
4 2
5 5
6 6
7 2
8 6
9 5
10 5
11 3
12 1
13 3
14 4
15 4
16 6
17 4
18 6
19 3
20 6
21 1
22 2
23 5
24 4
25 3
26 4
27 1
28 5
29 3
30 2
31 2
32 4
33 3
34 4
35 2
36 5
37 2
38 5
39 4
40 5
41 6
42 2
43 5
44 4
45 1
46 3
47 2
48 1
49 4
50 4
51 6
52 6
53 5
54 3
55 3
56 5
57 5
58 4
59 4
60 6
61 5
62 1
63 1
64 4
65 5
66 2
67 6
68 1
69 6
70 6
71 4
72 4
73 2
74 1
75 3
76 5
77 5
78 3
79 3
80 6
81 3
82 1
83 5
84 5
85 6
86 2
87 4
88 3
89 1
90 4
91 2
92 4
93 1
94 5
95 2
96 3
97 4
98 3
99 5
100 4

k回目に出た目を\( X_k \)とすれば平均mは

\( m = \displaystyle \frac{1}{100}\sum_{k=1}^{100} X_k = 3.61\)

と求めることができます.これを相加平均と呼びましょう.

6.10 割合平均

ここで,1~6の目が出た回数でデータを整理してみます.

でた回数 でた割合
1 14 0.14
2 14 0.14
3 17 0.17
4 21 0.21
5 20 0.20
6 14 0.14

こうすれば,平均は,

\(m = \frac {1 \cdot 14 + 2 \cdot 14 + 3 \cdot 17 + 4 \cdot 21 + 5 \cdot 20 + 6 \cdot 14}{100} = 3.61\)

と求めることもできます.各項を分母の100で割ると,

$$ m = 1 \cdot 0.14 + 2 \cdot 0.14 + 3 \cdot 0.17 + 4 \cdot 0.21 + 5 \cdot 0.20 + 6 \cdot 0.14 = 3.61 $$

すなわち,サイコロの目\( k \)がでた割合を\( p_k \)すると,

\( m = \displaystyle \sum_{k=1}^{6} k \cdot p_k\)

で平均が計算できるわけです.これを割合平均と呼びましょう.(この呼び方は一般的な呼び方ではなく,ここでの説明のための呼び方です)

6.11 身長のヒストグラムからは割合平均は求められない

ここでサイコロの目の分布をヒストグラムにしてみます.

これは身長の分布と似たものに見えます.それでは,身長のヒストグラムからも割合平均を使って平均を求めることはできるのでしょうか.

できません.なぜなら,ヒストグラムの1つ1つの縦棒(ビン)が表すのは,xが特定の値となる確率$p_x$ではなくある範囲となる確率$P(x_k \leqq x \leqq x_{k+1})$だからです.

6.12 階級幅Δxを小さくする

問題は,階級幅が大きいことにあります.というのも,階級幅が十分小さければ,$P(x_k \leqq x \leqq x_{k+1}) = p_{x_k}$と見なせるので,割合平均で平均を求められるからです.では仮に,幅Δx(<<1)のヒストグラムに対して,良いμ,σを選んで,正規分布をうまく当てはめられたとしましょう.このときヒストグラムの高さを正規分布と合わせるためには,各ビンの高さを1/Δx倍にする必要があることに注意してください.

当てはめのイメージとして次の図も参照してください.$f(x)$が正規分布で,$a=-∞,b=∞$として$Δx$の階級幅で当てはめた場合を想像すると良いでしょう.

このサイトから引用しました.

当てはめた1つのビンに注目すると$Δx$が十分小さい時,つまり$Δx \ll 1$のとき,次のようになっています.

ゆえに

\( m = \displaystyle \sum_{k=0}^{n} x_k \cdot p_{x_k} = \displaystyle \sum_{k=0}^{n} x_k \cdot p(x_k,x_{k+1}) = \displaystyle \sum_{k=0}^{n} x_k \cdot f(x_k) \cdot \Delta{x}\)

が示せます.あとは\(\lim_{ \Delta{x} \to 0} \)とすると,(区分求積法と同じように考えて)

\( \lim_{ \Delta{x} \to 0} \displaystyle \sum_{k=0}^{n} x_k \cdot f(x_k) \cdot \Delta{x} = \int_{-\infty}^{+\infty} xf(x) dx \)

ゆえに,

\[ m = \int_{-\infty}^{+\infty} xf(x) dx \]

が示せました.

6.13 後は計算するだけ

さて,f(x)が正規分布,すなわち,

\[f(x) = \frac{1}{\sigma \sqrt{2\pi}}e^{\frac{-(x-\mu)^2}{2\sigma}} \]

のときは,

\[\int_{-\infty}^{+\infty} xf(x) dx = \mu \]

であることが知られています.(証明はこのサイトを参照.単なる計算なのでスキップ可です.)

それゆえ,

\[ m = \int_{-\infty}^{+\infty} xf(x) dx = \mu \]

で,データの平均と$\mu$は一致します.

6.14 分散についても本質的には同じで後は計算するだけ

分散についても同様で,データの分散を\(s^2\)とすると,$m=µ$なので,

\[ s^2 = \sum_{k=0}^{n} (x_k - \mu)^2 p_k \]

式変形して,

\[ s^2 = \sum_{k=0}^{n} (x_k^2 -2x_k\mu +\mu^2) \cdot p_k \]

平均のときと同様に考えると,

\[ s^2 = \int_{-\infty}^{+\infty} (x^2f(x) -2\mu xf(x) +\mu^2f(x)) dx\]

となり,ここで,

\[\int_{-\infty}^{+\infty} x^2f(x)dx = \sigma^2 + \mu^2 \]
\[\int_{-\infty}^{+\infty} xf(x) dx = \mu \]

であることを使うと,(証明はこのサイトを参照.単なる計算なのでスキップ可です.)

\[ s^2 = \sigma^2 + \mu^2 -2\mu^2 + \mu^2 = \sigma^2\]

となって,データの分散と$\sigma^2$は一致します.以上から,主張を示すことができました.

6.15 まとめ

これで,母集団の分布は母平均を$µ$と母分散を$σ^2$とした正規分布と同一視できることが分かりました.これで誤差を定量的に評価する準備が整いました.

前へ ホーム 次へ