ミクの歌って覚える統計入門
第7話 どんな分布もまんなかに、中心極限定理
2008/07/01  

ナマステー、今日もノリにノッてる、ミクちゃんでーす。

「キミって個性的だね」って言われたときは、要注意だね。
それって褒めてるのか、それともホントはノーサンキューなのか、よーく空気読まないと、はずしちゃうんだなー。
ミクはいつでも「個性的だ」って言われるんだけど、あれって褒めてんのかなー。
そんな個性がいっぱい集まったら、とってもはじけた仲間になれるかな、それともケンカ別れしちゃうかな。
今日はお送りするのは、そんな歌でーす。

PLAY: 中心極限定理の歌 (MP3 Download)
確率分布 たくさん合わせたら
モーメント母関数 何次の項まで残るかな

一次のモーメント 平均はそのまんま
二次のモーメント σ^2/N (エヌぶんのシグマの二乗)
三次のモーメント 右と左が
打ち消し合って 消えてゆく

三次以上は 全てが消えて
一次と二次だけ残ったら 正規分布
   とんがり個性を集めたら

いちばんつまんなーい、平々凡々のサラリーマンみたいな性格を絵にしたら、
きっと何のでこぼこもない真っ平らな形になると思うの。
それって確率分布で言えば、真っ平らな「一様分布」って感じかな。
一様分布っていうのは、サイコロみたいに1から6までどれでもいっしょですよーってこと。
すごろくで、みんな同じところからヨーイドン、でスタートしても、いつのまにか速い人と遅い人ができちゃうよね。
あれってランダムウォークとおんなじで、みんなのコマの進み具合は、だんだん正規分布の形になってくるの。
しかも、サイコロを何度も何度も振っているうちに、ばらつきは一定値に近づいてくの。
よくみんなが言ってるみたいに、だんだん差が開いてくってわけじゃないみたい。
だからすごろくは最後までおもしろいんだよ。
よかったね、サラリーマン!

でも、俺は平凡な人生なんていやだっ!もっととんがった生き方をするんだー、ってアウトローもいるよね。
そんなロックンロールな人は、もっと「とんがったサイコロ」を使ってみよっか。
たとえば1がなかなか出なくて、6がバンバン出ちゃうような、活きのいいやつ。
これだったらコマもバンバン進むから、すごろくの感じも変わってくるんじゃないかな。
それとも、1や6がたくさん出て、真ん中あたりの3,4がなかなか出ないサイコロだったら、白黒はっきりしてて、うーんと差がつくかも。
反対に、真ん中の3,4がたくさん出るサイコロだったら、あんまり差がつかなくてみんな仲良しって感じになりそう。

いろんなサイコロ
それじゃあ、さっそくアウトローな人生すごろくをやってみよーっ!
えっ、そんなチマチマしたことやってられっかって?
しかも、一緒に遊んでくれる友達いないし・・・(ずがびーん!)
いっ、いいんだよね、アウトローなんだから。
そんな君には、パソコンっていう強ーい味方がいます。
パソコンで、均等に出ない「とんがったサイコロ」を作って、出てきた数をどんどん足していくの。
べつに1から6でなくってもいいんだよ。
マイナス10から10までみたいに、平均をゼロにしておくと結果を見るのが楽かもね。
これってホントにおもしろいんだから、ぜひぜひ試してみてね。

で、結果はどうなったかな。
あれれ、あんまり変わらないぞ?
サラリーマンも、アウトローな俺の生き方もあんま変わらないってこと?
そーなんです。
いろんなタイプのサイコロで試してみても、最終的なコマのちらばり具合は、ほとんど変わらないんです。
もちろん6がたくさん出るサイコロの方が、均等に出るサイコロよりも、たくさん前には進むよ。
でも、みんなのコマがちらばった形は、どんなサイコロでもほとんど同じになっちゃうんだ。
その同じ形っていうのは、まんなかが一番多くて、両端がだんだん減ってゆく釣り鐘型、そう、正規分布だね。
つまり、正規分布っていうのは「最終形態」だったんだ。

どうしてみんな正規分布ばっかり特別にエコヒイキするんだろう?
それは「正規分布=分布の最終形態」だったからなんだねっ。
世の中には、ものごとの数だけ確率分布があるはずじゃない。
とんがってたり、丸まってたり、右によっていたり、左に傾いていたり、いろんな個性があっていいと思うの。
でもそんな、いろんな個性をたくさん集めてくると、できあがるのはどれも同じ形、正規分布になっちゃうんだ。
これってすごい真理!
ミクは当然、右によっているものばっかり集めてきたら、できあがりも右によってるのかなー、って思ってました。
実際にたくさん集めてみると、ちゃんと真ん中に集まってくるんだよ。
すごくとがった人ばっかり集まったグループと、平々凡々の人が集まったグループも、中から見ると実はそんなに変わらないのかもね。

でもでも、絶対、絶対、そうなるのかな。
アウトローの俺としては、絶対に正規分布にならないサイコロを作ってやるぞっ!
って、さすがはロックンローラー、なかなか骨があるぞ。
実はすごく特別な例外ってのも、あるんだよねー。
それは次回、「大数の法則」でのお楽しみ!
みんなが普通に出会う平々凡々なのは、だいたい集めると正規分布になるってことでいいと思うんだ。

   モーメントという見方

たくさん集めてくると、なんでも正規分布になっちゃう。
このことは「中心極限定理」っていいます。
なんだかカッコつけた名前だねー。
でも、驚きの事実なんだから、名前負けしてないよねっ。

 平均がμ、分散がσ^2 の独立な確率変数 x1, x2, x3, ... xn の和
 X = 1/n (x1 + x2 + x3 + ... + xn) は、
 n が大きくなるにつれて正規分布 N(μ,σ^2/n) に近づく。
どうしてこうなるんだろうって?
それには、「モーメント」っていうのを知らないとねっ。
あっ、わかった、それってこないだ駅前広場に作ったやつでしょ!
あんさん、そりゃモニュメントやがな・・・(さむっ!)
モーメントっていうのは、タイヤとか、コマとかをぶんぶん回すときに、どのくらい力をかけなきゃいけないかなっていう「回しにくさ」のこと。
もともとは物理の言葉だよ。
データのかたまりを、コマみたいにぶんぶん回してみようっていう、大胆な発想してみるわけ。
もしデータがぜんぶ平均点に集まっていたら、それって細い一本棒を回すみたいに、簡単に回っちゃうでしょ。
これがモーメントゼロ。
それじゃあ、簡単に回せないのは、どんなデータかな?
きっとデータが広ーく散らばっているときだよね。
ってことは、「データの回しにくさ=モーメント=分散」になってるんだ。

さーて、ここからが発想の飛躍だよ。
別にそこまでついてこなくてもいいんだけどぉ、あなたがどーしてもっていうんなら、特別話してあげないこともないよ。(久々にツン)
いま見た分散っていうのは、「2次のモーメント」っていうの。
なぜ「2次」かっていうと、その前に「1次」があるからよっ。
「1次のモーメント」っていうのは、実は「平均」のことなの。
この1次、2次、っていう数字は、「xの1次式」、「xの2次式」ってことに関係してるんだなー。
分散って「2乗の和をデータの数で割ったもの」だったよね。
これを「1乗の和」ってしたらどうなるかな?
1乗って、つまりデータの値そのものなんだから、「1乗の和をデータの数で割ったもの」は平均ってことになるでしょ。

1次と2次があるんだったら、その上に3次っていうのもあるんだな、これが。
「3次のモーメント」は、「3乗の和をデータの数で割ったもの」になるね。
y = x^3 ってグラフの形がどんなふうになるか、わかるかな?
これって、ゼロを中心にS字型っぽく左右に延びているんだよ。
だから、3次のモーメントは右と左で反対向きになっていて、遠くに行くほど効いてくる数ってっ感じになるね。
3次のモーメントには「歪度(わいど)」っていう名前が付いているんだ。
グラフの形だと、データの散らばり具合が、右と左でどのくらい違っているかなってこと。
歪度ゼロが左右同じで、歪度マイナスが左に寄っていて、歪度プラスが右に寄っているってことになるね。

ちょっとぉ、聞いてんのー、わかる?
もう1度、データの見方をゼロからスタートしてみるね。
まず大きく見るとデータは平均点のあたりにあって、
もう少しよく見ると、データは平均点の回りにちらばっていて、
もっとよく見ると、そのちらばり具合が左右で違っていて、
  ・・・
こんな感じに、データを大ざっぱな形から、だんだん細かい形に、順番に追ってゆくことができるんだよ。
これがモーメントっていう見方。
すごいでしょ。

N次のグラフ
3次のモーメントの上には、4次のモーメントがあって、それには「尖度(せんど)」って名前が付いてまーす。
y = x^4 ってグラフは、左右が同じで遠くに行くほどググーッて急に大きくなるから、
4次のモーメントは、近くと遠くでどれだけ違ってくるかって数になるんだ。
グラフにすると、データのとんがり具合。
尖度が大きいと、データのてっぺんはツンッてとんがって、裾野がデレーって広がるんだ。
反対に尖度が小さいと、データのてっぺんは広がって、裾野も短くなるよ。
4次の上には5次があって「裾野の広がり具合が左右でどのくらい違っているか」ってことなんだけど・・・
もうここから先には、普通の名前は付いてません。
グラフを想像するのもちょっとたいへん。

次数ではっきりしてるのは、奇数は左右が反対、偶数は左右が同じってこと。
1次、3次、5次・・・は、平均、左右の偏り、広がり方の偏り、ってかんじに進んでいって、
2次、4次、6次・・・は、分散、分散の広がり方、分散の広がり方の広がり方、ってかんじになるんだよ。

5次、6次、7次・・・って、これってどこまで続くんだろう?
それは、データの数だけ続きます。
10個のデータがあったら、10次のモーメントまででおしまい。
もしデータが1個だったら、1次のモーメント=平均でカンペキにわかるよね。
データが2個だったら、平均と、どれだけちらばっているかの2つでカンペキにわかるでしょ。
データが3個だったら、平均と、ちらばりと、ちらばりの偏り具合の3つでカンペキ。
これがずーっとデータの数まで続いてくわけ。
だからモーメントって、よく考えるとデータの見方を変えただけなの。
10個のデータには、10個の数字がいるでしょ。
それを、1次から10次までのモーメントに、見方を変えて並べ直しただけ。
それじゃあ、モーメントに何の意味があるのかって・・・
それは「大きい形から小さい形にだんだん細かく見ていく」ってこと。
1000個もデータがあったときに、1000個の数字がずらずらーって並んでいるより、平均と分散だけでだいたいどんなだか分かるでしょ。
これが「大きい形を見る」ってことだね。

   モーメントを足し合わせたら

モーメントのこと、わかったぁ?
ホントにわかってんの、あやしいなー。

モーメントって見方ができちゃうと、なんでたくさん合わせたら正規分布になるかってこともわかっちゃうんだ。
まず1次のモーメント。
平均を足していっても、そのまま平均になるよね。
だから「平均はそのまんま」。
2次のモーメント。
データのちらばりぐあいは、やっぱり足してもそのままになってまーす。
N個のデータを足して、Nで割ったら「σ^2/N (エヌぶんのシグマの二乗)」。
3次のモーメント。
これって歪度、つまり右と左でどれだけかたよってるかなってことだったよね。
右と左は平均して同じくらい出てくるから、たくさん足してくとだんだんゼロになってっちゃうの。
なので「右と左が 打ち消し合って 消えてゆく」。
3次より上の、4次、5次、6次はぜーんぶ消えちゃって、合わせて残るのは、けっきょく1次と2次だけなの。
で、平均と分散だけ残った形が正規分布。

ふうっ。今回はけっこー厳しかったね。
なんかだんだん厳しくなってる気がするなーって。
そんなのあったりまえじゃない!
お話が進むと、だんだん厳しくなってくの。
あなたがCoolになんないと、いつまでたってもデレーってならないんだからねっ!

そんじゃ、ナマステー フィル ミレンゲー。

ページ先頭に戻る▲