ミクの歌って覚える統計入門
第10話 ちょっぴりちがうの標本は、不偏分散
2008/07/01  

アンニョン ハセヨ、ミクの時間がやってきましたー!

今回のお話は、前回の第9話「無限の男にゃ出会えない、標本抽出とびっきり!」の続きだよ。

前回までのあらすじ:
 最近男運に恵まれないミクは、ひょっとすると、自分の周囲にいる男たちだけが、
 そろいもそろってヘタレなのではないかとの疑いを抱きつつあった。
 そんなミクは、母集団と標本集団の違いに着目し、推測統計の意味を
 ますます深くかみしめるのであった。

それでは、本編すたぁと!

PLAY: 不偏分散の歌 (MP3 Download)
ちょっと見ただけじゃわからない
本当は違うことがある
標本の分散計っても
本当の分散は ちょっと違う

データの数で割ったらだめで
データひく1で割るといい

たくさんの 標本が ばらついてるから
標本の 分散を 1個に数えるの
標本と本当が一致してるのを
不偏推定量っていうからね
   平均は同じ、でも標本平均の分散は?

母集団と標本集団、違うんだってことはなんとなくわかったんだけど、じゃ、具体的に何がどう違うんだろう。
たとえば平均。
世の中全部の本当の平均と、たまたまミクが見たことあるものだけの平均は、同じじゃないかもしれないよ。
でも、じゃあどう違うの、おっきいの、ちっちゃいの?
って聞かれたら、わからないからどっちでもありませんよーって答えるしかないよね。
だから、標本平均はやっぱり母平均に等しい、と言うしかないの。
・・・え、なになに・・・ぬにー!
ミクはおっきくも、ちっちゃくもありませんっ(げしげしっ!)
まったくもうっ!(ぷんすか)

で、次に気になるのが分散。
おっきい、ちっちゃいってことがわかんなくても、せめて真の値とどのくらい違ってるのかなーってのが知りたくなるでしょ。
どのくらい違ってるかっていうのは、つまり「標本平均の分散」ってことだよね。
たしか分散は「データがどれだけ離れているかの距離」のことだったんだけど・・・忘れちゃった人は第2話をもう1度!
で、「標本平均の分散」を調べてみるとー、「もとの母集団の分散を、標本の大きさで割ったもの」になってます。
ほぇーって、その顔はぜんぜんわかってないな。
サンプルが1個だけだったら、それってもとの母集団の分散と同じだけ違っているでしょ。
サンプルが2個になると、1個だけのときよりも2倍安定して、違いは半分に減ってくるの。
サンプルが3個なら 1/3、4個なら 1/4 って感じ。
つまり、(標本平均の分散) = (母集団の分散) / (標本の数) ってことだよ。

なぜそうなるか、気になってしかたない人は、おしまいの方におまけの数式をくっつけといたから、がんばってチャレンジしてね。
式を見ると眠くなっちゃうって人は、てきとーに流しちゃっていいよ。
でも、おっきいとか、ちっちゃいとか妄想してる人は、煩悩が消えるまで解読してなさいっ!

・・・と、まあ難しい式はさておいて、
「標本の数が増えるほど、分散は安定する」っていう結果のとこを覚えておくと、けっこー使えるんだ、これが。
分散は2乗だから、偏差に直すと√がくっついて、「偏差はルート標本数が増えるほど安定する」ってことになるね。
「ルート標本数」っていうところがミソ。
そーいえば、「第4話 いったりきたり、乙女心はランダムウォーク」で、「移動距離はルートNステップ」だったの覚えてる?
どちらもルートの関係、お・な・じ・こ・と。
これを知ってると、正規分布の中で平均が95%以内に入る範囲が計算できるんだよ。
つまりこれが、「正規母集団に対する平均値の区間推定」ってやつ。
正規分布っていうのは形が決まってるから、そこでの95%以内の範囲っていうのは偏差 -1.96σ〜+1.96σの範囲になるの。
1.96っていう数字は、実際計ってみたらそこだったんだよね。
覚えるのがめんどーだったら、このさい「およそ2」でもいいよ。
ほら、小学校でも「およそ3」とかやってるみたいだしぃー。
で、「偏差はルート標本数が増えるほど安定する」んだから、偏差をルート標本数で割ってあげれば、母集団と標本を直接比べられるようになるの。
標本と母集団の平均のずれが、95%以内に入るってことは、

  -1.96σ/√n < (平均のずれの大きさ) < +1.96σ/√n
ってなるよね。
これが平均値の区間推定の答え。
実際に母集団の偏差σはわかんないから、とりあえず代わりに標本の偏差をあてはめちゃいましょっ、てなことをしてまーす。
標本の偏差をあてはめちゃった、σ/√n ってところを「標準誤差」って呼んでます。
やってることはけっこーいいかげんでも、名前だけはかっこいいね。

   それじゃあ標本分散は?

標本と母集団の平均の違い、わかってくれたかな?
それじゃあお次に、標本と母集団の分散の違いはどうなってるんだろう?
あれっ、それってついさっきやらなかった?
よーく聞いてね、さっきのは「標本平均の分散」、これから調べるのは「標本の分散」。
なんじゃそりゃぁああああ!
うん、うん、叫びたい気持ちもわかるけど、他に言い方がないんだよ。
標本平均の分散:
 取り出してきた標本の平均が、母集団の真の平均からどのくらい離れてるかってこと。
標本の分散:
 標本の中に入っているデータが、どれくらいばらついてるかってこと。
わかんなくなっちゃう人は、だいたいこのへんで、あれ、あれれ? ってなっちゃうんだね。

それでは、標本の分散。
ちょっと考えてみると、標本の分散って、母集団の分散とほとんど変わらないんじゃないかな。
だって、標本って母集団から取ってきたものでしょ。
そうねー、うるさいこと言わなければ、だいたい (標本分散)=(母分散)でも、そんなに違ってないわ。
うー、そんな言い方するってことは、ホントは正解じゃないの?
そう、ちょっとだけ違うんだなー、ちょっとだけね。
どんな風に違ってるのか、実験してみよーか。
母集団を{1,2,3}の3つにするね。
標本は、
  {1,2}
  {2,3}
  {3,1}
の3つだね。

で、母集団の分散は、
   1^2 + 0^2 + 1^2 = 2

標本の分散
  {1,2}: 0.5^2 + 0.5^2 = 0.5
  {2,3}: 0.5^2 + 0.5^2 = 0.5
  {3,1}: 1^2  + 1^2  = 2

全部で見ると、やっぱり標本の分散の方が小さめに出ているよね。
どのくらい小さめに出るんだろう。
先に答を言っちゃうと、{ (標本の数)-1 / (標本の数) } っていう割合で小さくなってるんだ。
あてはめてみると、

母集団の分散をちっちゃめに補正:
   2 * {2-1 / 2} = 1

3つの標本の分散の平均は:
   (0.5 + 0.5 + 2) / 3 = 1

ねっ、これで同じになったでしょ。
この少しちっちゃめの割合っていうのは、標本の数がうんと大きくなれば、ほとんど気にならなくなっちゃうんだ。
だからこれって、ほんとにすみっこをつっつくようなお話なんだけど、
大事なのは「標本と母集団で一致しない値がある」ってこと。
分散っていうのは、実は一致しない値だったんだね。

でもどうして、{ (標本の数)-1 / (標本の数) } ってしなきゃいけないんだろう?
わからないのは (標本の数)-1 にくっついてる、1って数だよね。
この1はどっから出てきたかっていうと、
 「たくさんの 標本が ばらついてるから 標本の 分散を 1個に数えるの」。
上の例だと、標本は3つあって、3つの分散は 0.5, 0.5, 2 だったよね。
この { 0.5, 0.5, 2 } っていう、3つの数の分散は、どこに入っているのかな?
単純に3つの標本を平均しただけだと、「3つの標本がばらついてる」ってことを数え落としちゃうんだ。
標本がばらばらになれる分だけ、分散の逃げ場があるって感じかな。
つまり、少しちっちゃめの1は、「標本平均の分散」の1個分だってことだね。

・・・少しちっちゃめ(ボソッ)
くっ、くぅううううう、ひとが気にしてることをおおおお(げしげしげしっ!)
下の方にうんっと難しい式を書いといたから、へんなこと忘れるまで解読してなさいっ!!

(液体窒素)ふぅ、ふぅ。
ってことで、分散っていうのは、たくさん標本を集めても偏っちゃう値だったんだね。
でもそうなると、たくさん集めても偏らない値ってのが欲しいよね。
集めてきても偏らない値のことを「不偏推定量」っていうんだ。
平均は、集めても偏らないから不偏推定量。
分散は、集めてくると偏っちゃうから不偏推定量ではない。
じゃあどうするかっていうと、標本分散そのものの代わりに
 { 1 / (標本の数)-1 } x (標本分散)
って値を使うと、これが母分散と偏っていない不偏推定量になってるんだ。

・・・さぁて、数式の解読はできたかなー?
まぁーだできてないのぉー、あんたやっぱりバカねっ!
そんじゃねー、アンニョンヒ ケセヨ。

----------------------------------------------------------------
* 記号の意味 :
〜 の平均 : Ave[ 〜 ]
標本平均 : X~
標本の数 : n
標本変数 : X1, X2, X3, ・・・ Xn
母平均 : μ
母分散 : σ^2

* なぜ (標本平均の分散) = (母集団の分散) / (標本の数) となるのか
  Ave[ (X~ - μ)^2 ]   ・・・標本平均の分散は、
= Ave[ { 1/n (X1 + X2 + X3 + ・・・ Xn - nμ) }^2 ]   ・・・標本平均をばらばらにして
= 1/(n^2) Ave[ { (X1-μ) + (X2-μ) + (X3-μ) + ・・・(Xn-μ) }^2 ]
= 1/(n^2) { Ave[(X1-μ)^2] + Ave[(X2-μ)^2] + Ave[(X3-μ)^2] + ・・・Ave[(Xn-μ)^2] }
    ・・・平均すると二乗の項だけ残る
= 1/(n^2) { σ^2 + σ^2 + σ^2 ・・・ σ^2 }   ・・・ σ^2 がn個あるのと同じ
= σ^2 / n   ・・・母集団の分散を、標本の数で割ったもの。

----------------------------------------------------------------
* さらに記号の意味:
標本分散 : S^2

* なぜ (標本分散) = { (標本の数)-1 / (標本の数) } x (母分散) となるのか
  S^2
= 1/n { (X1 - X~)^2 + (X2 - X~)^2 + (X3 - X~)^2 + ・・・ (Xn - X~)^2 }
= 1/n { ((X1-μ) - (X~-μ))^2 + ((X2-μ) - (X~-μ))^2 + ((X3-μ) - (X~-μ))^2 + ・・・((Xn-μ) - (X~-μ))^2 }
= 1/n { (X1-μ)^2 + (X2-μ)^2 + (X3-μ)^2 +・・・(Xn-μ)^2 }
  - 2 { 1/n (X1 + X2 + X3 +・・・Xn) - μ } (X~ - μ)
   + (X~ - μ)^2
= 1/n { (X1-μ)^2 + (X2-μ)^2 + (X3-μ)^2 + ・・・(Xn-μ)^2 } - (X~ - μ)^2

上の式の両辺の平均をとると、
  Ave[S^2]
= 1/n { Ave[(X1-μ)^2] + Ave[(X2-μ)^2] + Ave[(X3-μ)^2] + ・・・Ave[(Xn-μ)^2] } - Ave[(X~ - μ)^2]

ここで、
  Ave[(Xi-μ)^2] = σ^2 (i=1,2,3・・・n)
さらに1つ前の標本平均の分散の結果から
  Ave[ (X~ - μ)^2 ] = σ^2 / n

これらを代入すると、
  Ave[S^2]
= 1/n (σ^2 + σ^2 + σ^2 + ・・・σ^2) - σ^2 / n
= σ^2 - σ^2 / n
= { (n-1) / n } σ^2

----------------------------------------------------------------

ページ先頭に戻る▲