第１０話　ちょっぴりちがうの標本は、不偏分散

アンニョンハセヨ、ミクの時間がやってきましたー！

今回のお話は、前回の第９話「無限の男にゃ出会えない、標本抽出とびっきり！」の続きだよ。

前回までのあらすじ：
　最近男運に恵まれないミクは、ひょっとすると、自分の周囲にいる男たちだけが、
　そろいもそろってヘタレなのではないかとの疑いを抱きつつあった。
　そんなミクは、母集団と標本集団の違いに着目し、推測統計の意味を
　ますます深くかみしめるのであった。

それでは、本編すたぁと！

PLAY:

不偏分散の歌 (MP3 Download)

ちょっと見ただけじゃわからない
本当は違うことがある
標本の分散計っても
本当の分散はちょっと違う

データの数で割ったらだめで
データひく１で割るといい

たくさんの　標本が　ばらついてるから
標本の　分散を　１個に数えるの
標本と本当が一致してるのを
不偏推定量っていうからね

平均は同じ、でも標本平均の分散は？

母集団と標本集団、違うんだってことはなんとなくわかったんだけど、じゃ、具体的に何がどう違うんだろう。
たとえば平均。
世の中全部の本当の平均と、たまたまミクが見たことあるものだけの平均は、同じじゃないかもしれないよ。
でも、じゃあどう違うの、おっきいの、ちっちゃいの？
って聞かれたら、わからないからどっちでもありませんよーって答えるしかないよね。
だから、標本平均はやっぱり母平均に等しい、と言うしかないの。
・・・え、なになに・・・ぬにー！
ミクはおっきくも、ちっちゃくもありませんっ（げしげしっ！）
まったくもうっ！（ぷんすか）

で、次に気になるのが分散。
おっきい、ちっちゃいってことがわかんなくても、せめて真の値とどのくらい違ってるのかなーってのが知りたくなるでしょ。
どのくらい違ってるかっていうのは、つまり「標本平均の分散」ってことだよね。
たしか分散は「データがどれだけ離れているかの距離」のことだったんだけど・・・忘れちゃった人は第２話をもう１度！
で、「標本平均の分散」を調べてみるとー、「もとの母集団の分散を、標本の大きさで割ったもの」になってます。
ほぇーって、その顔はぜんぜんわかってないな。
サンプルが１個だけだったら、それってもとの母集団の分散と同じだけ違っているでしょ。
サンプルが２個になると、１個だけのときよりも２倍安定して、違いは半分に減ってくるの。
サンプルが３個なら 1/3、４個なら 1/4 って感じ。
つまり、(標本平均の分散) = (母集団の分散) / (標本の数) ってことだよ。

なぜそうなるか、気になってしかたない人は、おしまいの方におまけの数式をくっつけといたから、がんばってチャレンジしてね。
式を見ると眠くなっちゃうって人は、てきとーに流しちゃっていいよ。
でも、おっきいとか、ちっちゃいとか妄想してる人は、煩悩が消えるまで解読してなさいっ！

・・・と、まあ難しい式はさておいて、
「標本の数が増えるほど、分散は安定する」っていう結果のとこを覚えておくと、けっこー使えるんだ、これが。
分散は２乗だから、偏差に直すと√がくっついて、「偏差はルート標本数が増えるほど安定する」ってことになるね。
「ルート標本数」っていうところがミソ。
そーいえば、「第４話　いったりきたり、乙女心はランダムウォーク」で、「移動距離はルートＮステップ」だったの覚えてる？
どちらもルートの関係、お・な・じ・こ・と。
これを知ってると、正規分布の中で平均が９５％以内に入る範囲が計算できるんだよ。
つまりこれが、「正規母集団に対する平均値の区間推定」ってやつ。
正規分布っていうのは形が決まってるから、そこでの９５％以内の範囲っていうのは偏差 -1.96σ～+1.96σの範囲になるの。
1.96っていう数字は、実際計ってみたらそこだったんだよね。
覚えるのがめんどーだったら、このさい「およそ２」でもいいよ。
ほら、小学校でも「およそ３」とかやってるみたいだしぃー。
で、「偏差はルート標本数が増えるほど安定する」んだから、偏差をルート標本数で割ってあげれば、母集団と標本を直接比べられるようになるの。
標本と母集団の平均のずれが、９５％以内に入るってことは、

　 -1.96σ/√ｎ < (平均のずれの大きさ) < +1.96σ/√ｎ

ってなるよね。
これが平均値の区間推定の答え。
実際に母集団の偏差σはわかんないから、とりあえず代わりに標本の偏差をあてはめちゃいましょっ、てなことをしてまーす。
標本の偏差をあてはめちゃった、σ/√ｎってところを「標準誤差」って呼んでます。
やってることはけっこーいいかげんでも、名前だけはかっこいいね。

それじゃあ標本分散は？

標本と母集団の平均の違い、わかってくれたかな？
それじゃあお次に、標本と母集団の分散の違いはどうなってるんだろう？
あれっ、それってついさっきやらなかった？
よーく聞いてね、さっきのは「標本平均の分散」、これから調べるのは「標本の分散」。
なんじゃそりゃぁああああ！
うん、うん、叫びたい気持ちもわかるけど、他に言い方がないんだよ。
標本平均の分散：
　取り出してきた標本の平均が、母集団の真の平均からどのくらい離れてるかってこと。
標本の分散：
　標本の中に入っているデータが、どれくらいばらついてるかってこと。
わかんなくなっちゃう人は、だいたいこのへんで、あれ、あれれ？ってなっちゃうんだね。

それでは、標本の分散。
ちょっと考えてみると、標本の分散って、母集団の分散とほとんど変わらないんじゃないかな。
だって、標本って母集団から取ってきたものでしょ。
そうねー、うるさいこと言わなければ、だいたい (標本分散)＝(母分散)でも、そんなに違ってないわ。
うー、そんな言い方するってことは、ホントは正解じゃないの？
そう、ちょっとだけ違うんだなー、ちょっとだけね。
どんな風に違ってるのか、実験してみよーか。
母集団を｛１，２，３｝の３つにするね。
標本は、
　　｛１，２｝
　　｛２，３｝
　　｛３，１｝
の３つだね。

で、母集団の分散は、
　　 1^2 + 0^2 + 1^2 = 2

標本の分散
　　｛１，２｝: 0.5^2 + 0.5^2 = 0.5
　　｛２，３｝: 0.5^2 + 0.5^2 = 0.5
　　｛３，１｝: 1^2　 + 1^2　 = 2

全部で見ると、やっぱり標本の分散の方が小さめに出ているよね。
どのくらい小さめに出るんだろう。
先に答を言っちゃうと、{ (標本の数)-1 / (標本の数) } っていう割合で小さくなってるんだ。
あてはめてみると、

母集団の分散をちっちゃめに補正：
　　 2 * {2-1 / 2} = 1

３つの標本の分散の平均は：
　　 (0.5 + 0.5 + 2) / 3 = 1

ねっ、これで同じになったでしょ。
この少しちっちゃめの割合っていうのは、標本の数がうんと大きくなれば、ほとんど気にならなくなっちゃうんだ。
だからこれって、ほんとにすみっこをつっつくようなお話なんだけど、
大事なのは「標本と母集団で一致しない値がある」ってこと。
分散っていうのは、実は一致しない値だったんだね。

でもどうして、{ (標本の数)-1 / (標本の数) } ってしなきゃいけないんだろう？
わからないのは (標本の数)-1 にくっついてる、１って数だよね。
この１はどっから出てきたかっていうと、
　「たくさんの　標本が　ばらついてるから　標本の　分散を　１個に数えるの」。
上の例だと、標本は３つあって、３つの分散は 0.5, 0.5, 2 だったよね。
この { 0.5, 0.5, 2 } っていう、３つの数の分散は、どこに入っているのかな？
単純に３つの標本を平均しただけだと、「３つの標本がばらついてる」ってことを数え落としちゃうんだ。
標本がばらばらになれる分だけ、分散の逃げ場があるって感じかな。
つまり、少しちっちゃめの１は、「標本平均の分散」の１個分だってことだね。

・・・少しちっちゃめ（ボソッ）
くっ、くぅううううう、ひとが気にしてることをおおおお（げしげしげしっ！）
下の方にうんっと難しい式を書いといたから、へんなこと忘れるまで解読してなさいっ！！

（液体窒素）ふぅ、ふぅ。
ってことで、分散っていうのは、たくさん標本を集めても偏っちゃう値だったんだね。
でもそうなると、たくさん集めても偏らない値ってのが欲しいよね。
集めてきても偏らない値のことを「不偏推定量」っていうんだ。
平均は、集めても偏らないから不偏推定量。
分散は、集めてくると偏っちゃうから不偏推定量ではない。
じゃあどうするかっていうと、標本分散そのものの代わりに
　{ 1 / (標本の数)-1 } x (標本分散)
って値を使うと、これが母分散と偏っていない不偏推定量になってるんだ。

・・・さぁて、数式の解読はできたかなー？
まぁーだできてないのぉー、あんたやっぱりバカねっ！
そんじゃねー、アンニョンヒケセヨ。

----------------------------------------------------------------
* 記号の意味 :
～の平均 : Ave[ ～ ]
標本平均 : X~
標本の数 : n
標本変数 : X1, X2, X3, ・・・ Xn
母平均 : μ
母分散 : σ^2

* なぜ (標本平均の分散) = (母集団の分散) / (標本の数) となるのか
　 Ave[ (X~ - μ)^2 ] 　　・・・標本平均の分散は、
= Ave[ { 1/n (X1 + X2 + X3 + ・・・ Xn - nμ) }^2 ] 　　・・・標本平均をばらばらにして
= 1/(n^2) Ave[ { (X1-μ) + (X2-μ) + (X3-μ) + ・・・(Xn-μ) }^2 ]
= 1/(n^2) { Ave[(X1-μ)^2] + Ave[(X2-μ)^2] + Ave[(X3-μ)^2] + ・・・Ave[(Xn-μ)^2] }
　　　　・・・平均すると二乗の項だけ残る
= 1/(n^2) { σ^2 + σ^2 + σ^2 ・・・ σ^2 } 　　・・・ σ^2 がｎ個あるのと同じ
= σ^2 / n 　　・・・母集団の分散を、標本の数で割ったもの。

----------------------------------------------------------------
* さらに記号の意味：
標本分散 : S^2

* なぜ (標本分散) = { (標本の数)-1 / (標本の数) } x (母分散) となるのか
　 S^2
= 1/n { (X1 - X~)^2 + (X2 - X~)^2 + (X3 - X~)^2 + ・・・ (Xn - X~)^2 }
= 1/n { ((X1-μ) - (X~-μ))^2 + ((X2-μ) - (X~-μ))^2 + ((X3-μ) - (X~-μ))^2 + ・・・((Xn-μ) - (X~-μ))^2 }
= 1/n { (X1-μ)^2 + (X2-μ)^2 + (X3-μ)^2 +・・・(Xn-μ)^2 }
　　- 2 { 1/n (X1 + X2 + X3 +・・・Xn) - μ } (X~ - μ)
　　　+ (X~ - μ)^2
= 1/n { (X1-μ)^2 + (X2-μ)^2 + (X3-μ)^2 + ・・・(Xn-μ)^2 } - (X~ - μ)^2

上の式の両辺の平均をとると、
　 Ave[S^2]
= 1/n { Ave[(X1-μ)^2] + Ave[(X2-μ)^2] + Ave[(X3-μ)^2] + ・・・Ave[(Xn-μ)^2] } - Ave[(X~ - μ)^2]

ここで、
　　Ave[(Xi-μ)^2] = σ^2 (i=1,2,3・・・n)
さらに１つ前の標本平均の分散の結果から
　　Ave[ (X~ - μ)^2 ] = σ^2 / n

これらを代入すると、
　 Ave[S^2]
= 1/n (σ^2 + σ^2 + σ^2 + ・・・σ^2) - σ^2 / n
= σ^2 - σ^2 / n
= { (n-1) / n } σ^2

----------------------------------------------------------------




Copyright(c) 2008 NakaNaka All Rights Reserved.