ミクの歌って覚える統計入門
第9話 無限の男にゃ出会えない、標本抽出とびっきり!
2008/07/01  

ジャンボ! みんなのアイドル、ミクでーす!

よく「星の数ほど男はいる」っていうけど、ほんとはどっちの方が多いんだろう。
世界の人口60億のうち半分が男。
星の数は、えーっと、、、銀河系が1000億個くらい、宇宙全体はよくわかんないけど、その1000億倍くらい!
星の方がぜんっぜん多いってこと。
でも、ちょっと待った。
1秒に1回握手することにして、30億人と握手するには、えーっと、、、ざっと100年!
それって、一生かかっても会いきれないよー。
じゃあどっちも、すごーくたくさんで、おんなじだ。
そんな気持ちを歌にしちゃいました。

PLAY: 標本抽出の歌 (MP3 Download)
あなたは特別 他の誰とも違う
この気持ち 確かめたい

全ての出会い 未来まで
今の私は 確かめられない

いままで出会った サンプルから
判断するしか しかた無いの

男はみんな 同じだから
正規母集団 仮定して

平均の推定 分散の推定
あなたは特別 外れてるかしら

有意水準5%で あなたに決めた
   出会った人、出会わなかった人

星の数ほどいる男の中で、ミクと紅い糸で結ばれているお方は、きっと一人だけだと思うの。
きっと出会った瞬間に、ミクにはピピッてわかっちゃうんだ。
ああ、早く紅い糸の君に出会えないかなー。
え、なになに・・・な、な、な、なんですってー!
ちがうちがう、ずぇーったい違うもん。
あんたなんか、あんたなんか、30億番目なんだからねっ!
なにさっ、って、30億人比べたわけじゃないだろうって・・・
そんなことないもん、ミクにはピピッてわかっちゃうんだから、こいつはぜったい30億番目だなーって。
リストに入ってるだけでも、ありがたいって思いなさい!!

でもでも、ひょっとして、もし紅い糸の君が、30億人の中の会うことのない方に入ってたらどーしよう。
でもでも、100年かけて全員に会ってたらミクおばーちゃんになっちゃうし・・・(って、100年生きるつもりかよ?)
こまったなー、なんとかピピッてわかる方法はないのかなー。

けっきょくのところ、いままで会った人を基準に判断するしかないよね。
ミクは科学の子だから、そのへんクールで打算的なんだぞ。
いままで出会った人が、偶然そろいもそろってへたれーってことはー、・・・きっとあんまり無いよね。
ほんとは、「いままでのはクズばっか、もっといいのが来ないかなー」って思ったりもするんだけど、やっぱ現実を見なきゃ。
かといって、いままで出会った人が、実はすごーくレベル高かったってことはー、・・・ないない、そんなのあり得ない。
そうすると問題なのは、
 ・世の中の全ての男
 ・ミクが出会ったことのある男
の2つに、実はどれだけ違いがあるかってことじゃない。
これ、とっても重要。

統計の言葉だと、
 ・世の中の全ての男 = 母集団
 ・ミクが出会ったことのある男 = 標本集団
って呼んでるの。
いちばん大事なとこは、母集団と標本集団は、別のものなんだってはっきり意識することなんだ。
ミクはこのことがわかんなくって、その後の統計の話は、なに言ってるんだか、さぁっっっっっっっぱりだったんだよね。
そんなの一番の基本だぞ、本見りゃ書いてあるじゃないかって・・・
でもね、でもね、本にはとっても難しく書いてあるんだよ。
ミクみたいなアホな娘は、すごく基本的なところがスポーンって抜けてることがあって、
そっから先はなにを言ってもちんぷんかんぷんになっちゃうんだ。
そこんとこわかって、先生!
ミクの苦労を繰り返さないように、もう1度言うね。
 ・世の中の全てが「母集団」、
 ・実際に調べることができるのが「標本集団」。
そして「この2つは、実は同じものではありません!」

   推定・検定という方法

えー、そんなの変だよ、だって母集団の中に標本が入っているんだから、もともと同じものじゃないの?
じゃあ、こんなふうに考えてみて。
ひょっとしたら、ミクのまわりにはヘタレばっかりが集まっていて、
本当の世界は思ってたのよりもずーっとレベル高いかもしれないじゃない。
そうじゃなくて、ミクが気付いてないだけで、いままで出会った人たちはすっごくいい人ばっかりで、
本当の世界は思ってたのよりもずーっとワヤクチャなのかもしれないわ。
でも、それじゃあ実際に30億人に会ってみるまで、本当の世界のことは全然わからないのかしら?
そんなことないよね。
いままで100人に出会ったなら、100人が100人とも、へたれーだったり、
超ハイレベルだったりってことは、ほとんどあり得ないもんね。
だから、ぜったいぜったい100%とは言えないけれど、95%くらい正しいんじゃないかな、って答は出せるんだ。
この「95%まで正しい」っていう、自信の度合いみたいなのを「信頼水準」っていうんだ。
世の中でふつうあってます、っていうときには信頼水準95%っていうのが基準みたい。
もっと厳しい、ぜったいにあってます、ってときには信頼水準99%まで引き上げることもあるよ。

実際に会ったことのあるサンプルをもとに、本当の世界はこんなふうになってるんじゃないかなーって、
予想することを「推定」っていうんだ。
つまり推定っていうのは「標本から母集団の性質を言い当てること」。
よく使う推定は、「95%の確率で、答はこっからここまでの間にありますよー」って範囲を指定する方法。
こういうのは「区間推定」だね。
サンプルがたくさんあれば範囲は小さく絞れるし、信頼水準を高くすれば、慎重になって範囲が広くなるって感じ。
「区間推定」の他に、「答はズバリこれじゃー!」って一発で当てる「点推定」っていうのもあるけど、
範囲の方が科学的って感じがするよね。
ミクの計算によると、世の中の男の平均は、95%の確率でレベル2からレベル6の間にあるわ。
なんだ、そのレベルって?
あんたバカぁ? そんなのミクレベルに決まってるじゃない!

「推定」の他に、先に予想を立てて、それがあってるか、間違ってるかテストするってやり方もあるよ。
テストだから「検定」っていうんだ。
じぃーっ、・・・あんたテストして欲しい?
いいわ、やったげる。
まず最初に予想を立てるの。
「あなたが、平均から特別にかけ離れている」ってことを言うには、
その反対に「あなたが平均レベルにある」っていう仮説を立てるの。
なんでこんなややこしいことするんだろうって?
特別ってどういうことか、ちょっと考えてみて。
普段見慣れているのが平均。
その中で、「あっ、こいつはちょっと違ってるぞ」っていうのが特別。
だから、平均レベルを否定して、特別を見つけるっていうのは、普段からやってる自然な流れなんだ。
統計用語だと、
 ・「あなたが平均レベルにある」= 帰無仮説
 ・「あなたが特別にかけ離れている」= 対立仮説
って言うの。
「帰無仮説」っていうのは、否定されることに意味がある仮説ってことだよ。

次に、いま目の前にいるあんたをチェックするんだから、母集団はどんなかなって決めとかなきゃいけないね。
それがわかってれば苦労はないんだけどー、わかんないときにはエイヤッって正規分布にしちゃうの。
そんな、いーかげんなのでいいのかって・・・いちいち文句言わない!
あたしが法律なんだからっ、それでいいのっ。
母集団の平均はミクレベル5、標準偏差は±ミクレベル1ってことにするね。
母集団に正規分布を仮定しているときは「正規母集団」って呼んでるの。
もちろん、ちゃんとした理由があって母集団の形とかわかってるんなら、そっちを使うんだけど、
なーんにもわからないときにはけっこうエイヤで正規分布にしちゃうこともあるゾ!

さーて、それではお楽しみのデータチェック!
ふっふっふ、外見ポイントでしょー、性格ポイントでしょー、おごってくれるポイント、扱いやすい下僕ポイント、・・・
ちょ、ちょっとー、のぞき込まないでよー、これってトップシークレットなんだからっ!
ちゃっちゃっちゃと、入力完了!
で、有意水準を5%にセット。
「有意水準」ってのは、どこから先を「特別」にするかのレベル。
さっきの「信頼水準」とは反対に、外れている方を数えるんだよ。
有意水準を5%っていうのは、20人に1人ぐらい特別ってことだね。

有意水準
そんでもって、便利なパソコンちゃんで実行!
あっ、すごーい、あなたやっぱり特別だったよ。
20人に1人の才能!
・・・別にそれほどでもっ・・・って、うぬぼれないでよねっ。
あなたが外れてるのは、下の方!
平均から上下に外れてるかどうかチェックするのは「両側検定」、かたっぽだけを調べるのは「片側検定」っていうんだ。
だからー、あんたやっぱり「論外」ってことじゃない。
両側片側
・・・そんなに落ち込まないでよー、いちいち世話がやけるわねー。
じゃ、こんどは有意水準1%でやってみるね。
今度は99%まで「普通」の中に入るってことだよ。
これで見るとー、「特別とは言えない」。
・・・よかったね。
これであんたもいちおー普通の仲間入り。
だったら「つきあってあげないこともない」よー。
そんなの答じゃない、なんにも言ってないじゃないかって。
そう、だから「帰無仮説」なんだよねっ!

じゃあね、クワヘリ!

ページ先頭に戻る▲