ミクの歌って覚える統計入門
最終話 役立つ検定3大トリオ、t・F・χ二乗
2008/07/01  

こんにちわー、ミクでーす。
あっというまにやってきました最終回。
長かったような、短かったような、フクザツな気持ちです。

いままでずっと、なんでだろう、どうしてだろう、って気持ちを大切にしてきたけど、
それだけじゃなくって、最後にちょっぴり役に立つこと歌っちゃうね。
それでは、最後の歌になりまーす、Music,ON!

PLAY: t・F・カイ二乗検定の歌 (MP3 Download)
よく使う 検定は 3つある
t検定 F検定 カイ二乗    ※

ほんとに平均同じかな
確かめるのがT分布
自由度大きくなったなら
正規分布に近づくの

  ※くりかえし※

2つのグループ比べたら
ばらつきほんとに同じかな
分散の比にはF分布
t検前にも使ってね

  ※くりかえし※

クロス集計作ったら
関係あるのか独立か
検定するのはカイ二乗
クラメール係数調べましょ

  ※くりかえし※
   平均比較はt検定

いろんなデータで一番気になるのは、けっきょく「みんなと同じかどうか」ってとこだよね。
今日は理論より実践重視だから、いきなり実データいってみよっか。

----------------------------------------------------------------
全国の17歳の女子の、胸囲の平均は 81.7cm である。(※データはてきとー、信じないように)
女子電脳合唱団の団員の胸囲を調べたら、次のようになっていた。
  86.3  80.3  72.7  76.3  79.6
  72.2  85.4  76.1  81.2  77.8
合唱団員の胸囲は、全国平均レベルと言えるか?
----------------------------------------------------------------

・・・この例って、なんか全国の女子を敵に回してない?
ま、まあいいわ、あくまでも一例なんだからね。

「電脳合唱団の平均は、全国平均レベルにある」っていう帰無仮説を調べるには、こんなふうにするの。

1.合唱団の平均と、全国平均の違いを計算する。
  合唱団の平均は 78.8、全国平均との差は 78.8 - 81.7 = -2.9 だね。

2.合唱団の分散を計算する。
  今回は不偏分散、(データの数 - 1) で割った数字を使うからね。
  合唱団の分散
  = (各データ - 合唱団平均)^2 を足し合わせたもの / (データの数 - 1)
  = (86.3 - 78.8)^2 + (80.3 - 78.8)^2 + (72.1 - 78.8)^2 ・・・ / (10 - 1)
  = 22.6

3.合唱団の分散をデータの数で割って、そのルートをとる。
  √(22.6 / 10) = 1.50
  この数は何のために使うのかっていうと、
  データをうまく標準のものさしに合わせるための「拡縮率」なんだね。

4.1.の答「-2.9」を、3.の答「1.50」で割る。
  2.9/1.5 = 1.93
  この「1.93」って数がP値っていって、どれくらい平均がずれてるかの目安になるんだ。

5.パソコンソフトか、t分布表を使って、P値が有意水準を超えているかどうかを調べる。

さて、ここで初めて「t分布表」っていうのが出てきたね。
「t分布表」は、よく統計の本とかに載っているんだけど、いったい何なんだろう?
それは、掛け算九九の表みたいな、答の表なんだ。
平均の比較っていうのはどうせやらなきゃならないことでしょ。
だから、あらかじめ正規分布のサンプルから何度もデータをとってきた確率を調べといて、表にしとけば便利だよね。
で、標本の平均が本当の平均(母平均)とどのくらいの確率でずれるかな、っていうのを表にしたのが「t分布表」。

最近は本に書いてある表を引くより、パソコンソフトを使った方が簡単だよ。
会社とかによくある「エクセル」にもt分布が入っているから、それを使ってみるね。
エクセルの枠の中に、どこでもいいから

 =TDIST(1.93, 9, 2)
って書き込んでみるの。
"9" はデータの数、10 - 1 。
データが1個だけってことはないから、ここには「データの数 - 1」を入れるようになってるの。
"2" は「両側検定」って意味。
ここを "2" にすると、平均から、上にも下にも、両側に離れている確率って意味になるんだよ。
ここを "1" にすると「片側検定」っていって、上か、下かのどっちか片方だけの確率って意味になるからね。
実は、"2" は "1" の2倍になってるだけなんだけどね。

エクセルに式を書き込んでみると、
  0.085672
っていう答が出てくるわ。
これは「P値が 1.93 よりも外れる確率は、全体の 8.56% です」って読むの。
有意水準5%、つまり95%までは「特別じゃなくて普通です」って考えれば、
電脳合唱団の平均は普通だってことだね!

じゃあ、今度は「片側検定」で、こんなふうにエクセルに書いてみたら・・・

 =TDIST(1.93, 9, 1)
答は
  0.042836
有意水準5%にちょっと足りない!
ってことはー、合唱団の平均は全国平均より「少しちっちゃめ」かな・・・
えっ、ミクは表のどこに入ってるか?(ギクッ)
どっ、どこだっていいじゃない、そんなの!

   分散比較はF検定

つ、次の例いってみよーか。

----------------------------------------------------------------
2台のマシンで、負荷をかけてから熱暴走するまでの時間を比較測定した。
  マシンM: 3.1  3.4  3.8  2.5  2.9
  マシンR: 3.8  3.4  3.1  3.3  3.6
2台のマシンのどちらが安定しているだろうか。
----------------------------------------------------------------

・・・この例って、もしかしてあたしにケンカ売ってない?(過熱気味)
ま、まあいいわ、あくまでも一例なんだからねっ!

ぱっと見には、マシンMのデータの範囲が 2.5〜3.8 だから、こっちの方がばらつきが大きいって気がするね。
分散が同じか、違ってるかを調べるには「F分布表」を使うんだよ。
F分布表を使うためには、まずそれぞれの分散を計算しておくんだ。

 マシンMの平均  : (3.1 + 3.4 + 3.8 + 2.5 + 2.9) / 5 = 3.14
 マシンMの不偏分散: {(3.1-3.14)^2 + (3.4-3.14)^2 + ・・・ } / (5-1) = 0.243

 マシンRの平均  : (3.8 + 3.4 + 3.1 + 3.3 + 3.6) / 5 = 3.44
 マシンRの不偏分散: {(3.8-3.44)^2 + (3.4-3.44)^2 + ・・・ } / (5-1) = 0.073

この2つの分散が違っているかどうかってことは、分散の比がいくつ以上になるかを調べるの。
つまり 0.243 / 0.073 = 3.328 って数字だね。
エクセルに

 =FDIST(3.328, 4, 4)
って書き込んでみよーか。
後ろの数字の 4, 4 は、それぞれのデータの数、(マシンMのデータ数 - 1) と (マシンRのデータ数 - 1) のことだよ。
エクセルの答は
  0.135444
これは「分散の比が 3.328 より違っている確率は、全体の 13.5% です」って読むの。
有意水準5%だったら、「分散が違っているとは言えない」ことになるね。
ちなみに、エクセルの FDIST 関数は「片側検定」だから、「両側検定」に直すには答を2倍にするんだよ。
両側の場合は、0.270887。
どっちにしても、ばらつきが違ってることにはならないみたいね。

ばらつきが違っているかどうかは、2つのマシンのデータを直接比べられるかどうかってことに関係してくるの。
ばらつきが違うデータ同士だったら、そのまま比べられないでしょ。
ばらつきが同じだったら、次に安心して平均を比べることができるよね。
平均が違っているかどうか、ちゃんと比べるには「t分布表」だったね。
さっきやった「一連のデータx全国平均」と違って、今度は「一連のデータx一連のデータ」だから、
手順もちょっぴり変わってくるの。
説明がたいへんだから、ここはエクセルの TTEST 関数にまかせちゃえ!
エクセルの上で、

=TTEST( マシンMのデータ範囲, マシンRのデータ範囲, 片側/両側のどちらか, 検定の種類 )
って感じに入れてみるの。
「片側/両側のどちらか」には、片側検定のとき"1"、両側検定のとき"2"って書くんだよ。
「検定の種類」には、いまの場合「等分散の 2 標本を対象とする t 検定」ってことで"2"って書くね。
そうすると、答は 0.356528 ってなるから、平均も違っているとは言えないってことになるね。
・・・ホッ、よかった。

えっ、ミクは表のどこに入ってるか?(ギクギクッ)
どっ、どこだっていいじゃない、そんなの!!

   カテゴリー相関はカイ二乗

つ、次の例いくわよっ!

----------------------------------------------------------------
  彼女or彼氏あり(^_^)   なし(T_T)
アニメが好き!  33人  64人
そうでもない。  46人  57人
----------------------------------------------------------------

うぅっ、なんか例がやけに生々しいんですけどー。
これ見て気になるのは、「やはりアニメファンはもてないのか」ってことだよね。

1.まず表の縦横、それぞれの合計を出します。
33 64 97
46 57 103
79 121 200

2.次に、縦横の合計値の割合から、反対に「きっとこうなるはずだろう」っていう理論値を逆算してみるの。
38.315 72.900 97
40.685 62.315 103
79 121 200

たとえば左上の 38.315 って数字は、
  200 * (97/200) * (79/200) = 338.315
って計算するんだよ。

3.実際のデータと理論値の「距離」を出します。
もし、たてよこに何の関係もなかったら、理論値を実際のデータは同じになるはずだよね。
それが違っちゃってるってことは、たてよこに何か関係があるかも、あやしいなー、って疑惑のまなざしになるの。
距離は二乗ってことで、それぞれこんな計算をするの。

 (実際のデータ - 理論値)^2 / 理論値
これを表の4つの数字で計算すると、こんなふうになって・・・
0.737 1.086
0.694 0.453
この4つを全部たしあわせると、2.97 って数になるね。
この 2.97 って数が、実際と理論がどれだけ違っているかの目安で「カイ二乗値」っていうんだよ。

4.最後に「カイ二乗分布表」で、違いがあるかどうかの確率を調べます。
エクセルだったら、こんな式になるんだよ。

 =CHIDIST(2.97, 1)
後ろにくっついている"1"は、表の大きさを表している数で、(表の縦 - 1)x(表の横 - 1) って数を使うんだ。
今回は 2x2 だから、(2-1)x(2-1)=1 ってなるの。
で、エクセルの答えは、
  0.084
うーん、8.4% ってことかー。
これってけっこーびみょーだけど、95%以内は特別じゃありませんっていう基準だったら、有意な違いは無いってことになるね。
ってことは、「アニメファンだからって、もてないわけじゃない」んだよ。
もしこれが 0.05 以下だったら、アニメとモテ度にははっきりと関係ありってことになるから・・・ぎりぎりセーフってとこだね。

えっ、ミクは表のどこに入ってるか?(ギクギクギクッ)
うっ、うるさい、うるさい、うるさいっ!
どこだっていいでしょ、そんなの!!

・・・えっ、いまのでどこに入っているのかわかっちゃったって?
ふ、ふんっ、いいんだもんっ。
ミクだって、あなたがどこに入ってるのか、わかっちゃったんだからねーだ!

   さあ、統計を使ってみよう

さて、長かったような、短かったような、ミクの統計入門は今回でいちおーおしまいです。
ここまでぜーんぷ聞いてくれたあなたは、きっといままでよりずっと深くデータが読めるようになってるよ。
パソコンでササッと検定とかできちゃったら、周りから「すげーっ!」って着目あびちゃうかもだよ。

統計とか、数学とかって、むずかしい記号がいっぱいで、みんなの嫌われ者なんだけど・・・ほんとはかわいそうなんだ。
だから、あんまり数学を嫌いにならないでね。
・・・それと、ミクもだよ!(ちょっとデレッ)
まだまだ言いたりなかったことはたくさんあるんだからっ、
さよならなんて、寂しすぎるんだから・・・きっとまた、会えるよねっ!

ページ先頭に戻る▲