第8話 そんなの常識、あたりまえでない大数の法則
2008/07/01
Здравствуйте!(ズドゥラーストヴィチェ)、ミクより愛をこめて。
毎日とっても充実してるかな?
PLAY:
大数の法則の歌
(MP3 Download)
毎日が おなじこと その繰り返しそのうちに 平均化 する そんなこと あたりまえ そう思う でも ほんとかな 特別な 例外は ないのかな t分布 自由度が 1の場合には 集めても 集めても その平均は 真ん中にならないよ でも なんでかな 分散が 発散を するからね 大数の 法則は なぜなんだろな チェビシェフの 不等式 その分散を nで割る そのnを 大きくすれば 0になる 平均は 収束する
あたりまえでない法則
「大数の法則」って、聞いた事あるかな?
でも、その後ずっとしてから、ミクは不思議な分布に出会ったの。 ばっかじゃないの! 誰がどう見たって、まん中が平均に決まってんじゃん。 だって、右と左がまったく同じなんだよ。
でも、いちおー試してみるかなって思って、パソコンで調べてみたんだよね。
じゃあ、なんでこのコーシー分布が特別なんだろう。
f(x) = 1/π(1+x^2)
πってとこが気になっちゃうけど、これは決まりきった定数なんだから、この際無視しちゃってね。
さて、お次にコーシー分布の平均値を計算したら、どうなるかな。
x f(x) = x/π(1+x^2)
これを足し合わせてくと∫x/(1+x^2)dx は 1/x っぽくなるから、どこまでもおっきくなっていって、無限の彼方に飛んでっちゃうの。 無限の彼方にいっちゃってるってことは、データはどこまでも広く散らばってるってこと。 どこまでも、無限に広く散らばっているんだから、その中で平均はここですって、決められないんだ。 ほら、宇宙が無限に広かったら、ここがまんなかですよーってところが無いでしょ。 それと同じ。 えっ、おれ様が中心だって思ってた? 何いってんのよ!(どげしどげしっ!) 宇宙の中心は、あたしに決まってるじゃない!
分散の秘密、チェビシェフの不等式
さてと、コーシー分布の秘密がだんだんわかってきたよね。
P( |x-μ| >= aσ) <= 1/(a^2)
げげーっ、難しそーな式っ・・・
実際にチェビシェフの不等式を使ってみるよ。
P( |x| >= 2σ) <= 1/4
これは「データが偏差の2倍より離れている確率は、1/4 以下です」って読むんだ。
でもでも、なぜだろうって、どーしても気になっちゃう?
σ^2 = ∫x^2 f(x) dx >= ∫(aσ)^2 f(x) dx
両辺を (aσ)^2 で割って、
1/(a^2) >= ∫f(x) dx = P(x)
これがチェビシェフの不等式そのもの。ううっ、式だらけ・・・聞かない方がよかったかなー。 でも1こ1こ見てくと、そんなに難しくないんだから、あせらないあせらない。
大数の法則には証明がある
さて「チェビシェフの不等式」がわかったところで、
大数の法則の本当の秘密は「データがたくさんあるほど、ばらつきが小さくなってくこと」にあるんだ。
σ^2 = V^2 / n
V^2 って書いたのは、よくわかんないんだけど、「データのばらつきの大元になる真の値」ってことにするね。 ここでもういちど、チェビシェフさんのご登場。
P( |x-μ| >= aσ ) <= 1/(a^2)
この中の σ を式の右側にもってきたいから、aσ ってところをまとめて ε って記号に書き直すね。
aσ = ε
すると、
P( |x-μ| >= ε ) <= σ^2 / (ε^2)
ってなるね。これってただ記号を置き換えただけ。
次は、分散のところを「ばらつきが小さくなってく」って感じにしちゃうんだ。
P( |x-μ| >= ε ) <= (V^2 / n) / (ε^2)
さあ出てきたぞ、これが答の式なんだ。えっ、どこどこって、よーくこの式を読んでみよーよ。 ヒントは、εを「ゆらぎ」と読む。 P が付いてる式の左側は、「確率が平均値よりもεだけ外れているのは」って読むの。 ほんのちょっとだけゆらいでる確率ってこと。 式の右側は、データのばらつきはnをどんどん大きくすると、ゼロになっちゃいますってこと。 全部合わせて「データがたくさんあるほど、ゆらぎが小さくなる」って読めるんだ。 うぐぅ、、、式だらけで死んじゃいそう・・・ だいじょーぶ、この程度じゃ死なない、死なない。
大切なのは、大数の法則は「あったりまえの常識」じゃなくて、ちゃんと理由があったんだってこと。 そんじゃね、Пока.(パカー)。 |