最終話 役立つ検定3大トリオ、t・F・χ二乗
2008/07/01
こんにちわー、ミクでーす。
いままでずっと、なんでだろう、どうしてだろう、って気持ちを大切にしてきたけど、
PLAY:
t・F・カイ二乗検定の歌
(MP3 Download)
よく使う 検定は 3つあるt検定 F検定 カイ二乗 ※ ほんとに平均同じかな 確かめるのがT分布 自由度大きくなったなら 正規分布に近づくの ※くりかえし※ 2つのグループ比べたら ばらつきほんとに同じかな 分散の比にはF分布 t検前にも使ってね ※くりかえし※ クロス集計作ったら 関係あるのか独立か 検定するのはカイ二乗 クラメール係数調べましょ ※くりかえし※
平均比較はt検定
いろんなデータで一番気になるのは、けっきょく「みんなと同じかどうか」ってとこだよね。
----------------------------------------------------------------
・・・この例って、なんか全国の女子を敵に回してない?
「電脳合唱団の平均は、全国平均レベルにある」っていう帰無仮説を調べるには、こんなふうにするの。
1.合唱団の平均と、全国平均の違いを計算する。
2.合唱団の分散を計算する。
3.合唱団の分散をデータの数で割って、そのルートをとる。
4.1.の答「-2.9」を、3.の答「1.50」で割る。
5.パソコンソフトか、t分布表を使って、P値が有意水準を超えているかどうかを調べる。
さて、ここで初めて「t分布表」っていうのが出てきたね。
最近は本に書いてある表を引くより、パソコンソフトを使った方が簡単だよ。
=TDIST(1.93, 9, 2)
って書き込んでみるの。"9" はデータの数、10 - 1 。 データが1個だけってことはないから、ここには「データの数 - 1」を入れるようになってるの。 "2" は「両側検定」って意味。 ここを "2" にすると、平均から、上にも下にも、両側に離れている確率って意味になるんだよ。 ここを "1" にすると「片側検定」っていって、上か、下かのどっちか片方だけの確率って意味になるからね。 実は、"2" は "1" の2倍になってるだけなんだけどね。
エクセルに式を書き込んでみると、
じゃあ、今度は「片側検定」で、こんなふうにエクセルに書いてみたら・・・
=TDIST(1.93, 9, 1)
答は0.042836 有意水準5%にちょっと足りない! ってことはー、合唱団の平均は全国平均より「少しちっちゃめ」かな・・・ えっ、ミクは表のどこに入ってるか?(ギクッ) どっ、どこだっていいじゃない、そんなの!
分散比較はF検定
つ、次の例いってみよーか。
----------------------------------------------------------------
・・・この例って、もしかしてあたしにケンカ売ってない?(過熱気味)
ぱっと見には、マシンMのデータの範囲が 2.5〜3.8 だから、こっちの方がばらつきが大きいって気がするね。
マシンMの平均 : (3.1 + 3.4 + 3.8 + 2.5 + 2.9) / 5 = 3.14
マシンRの平均 : (3.8 + 3.4 + 3.1 + 3.3 + 3.6) / 5 = 3.44
この2つの分散が違っているかどうかってことは、分散の比がいくつ以上になるかを調べるの。
=FDIST(3.328, 4, 4)
って書き込んでみよーか。後ろの数字の 4, 4 は、それぞれのデータの数、(マシンMのデータ数 - 1) と (マシンRのデータ数 - 1) のことだよ。 エクセルの答は 0.135444 これは「分散の比が 3.328 より違っている確率は、全体の 13.5% です」って読むの。 有意水準5%だったら、「分散が違っているとは言えない」ことになるね。 ちなみに、エクセルの FDIST 関数は「片側検定」だから、「両側検定」に直すには答を2倍にするんだよ。 両側の場合は、0.270887。 どっちにしても、ばらつきが違ってることにはならないみたいね。
ばらつきが違っているかどうかは、2つのマシンのデータを直接比べられるかどうかってことに関係してくるの。
=TTEST( マシンMのデータ範囲, マシンRのデータ範囲, 片側/両側のどちらか, 検定の種類 )
って感じに入れてみるの。「片側/両側のどちらか」には、片側検定のとき"1"、両側検定のとき"2"って書くんだよ。 「検定の種類」には、いまの場合「等分散の 2 標本を対象とする t 検定」ってことで"2"って書くね。 そうすると、答は 0.356528 ってなるから、平均も違っているとは言えないってことになるね。 ・・・ホッ、よかった。
えっ、ミクは表のどこに入ってるか?(ギクギクッ)
カテゴリー相関はカイ二乗
つ、次の例いくわよっ!
----------------------------------------------------------------
うぅっ、なんか例がやけに生々しいんですけどー。
1.まず表の縦横、それぞれの合計を出します。
2.次に、縦横の合計値の割合から、反対に「きっとこうなるはずだろう」っていう理論値を逆算してみるの。
たとえば左上の 38.315 って数字は、
3.実際のデータと理論値の「距離」を出します。
(実際のデータ - 理論値)^2 / 理論値
これを表の4つの数字で計算すると、こんなふうになって・・・
この 2.97 って数が、実際と理論がどれだけ違っているかの目安で「カイ二乗値」っていうんだよ。
4.最後に「カイ二乗分布表」で、違いがあるかどうかの確率を調べます。
=CHIDIST(2.97, 1)
後ろにくっついている"1"は、表の大きさを表している数で、(表の縦 - 1)x(表の横 - 1) って数を使うんだ。今回は 2x2 だから、(2-1)x(2-1)=1 ってなるの。 で、エクセルの答えは、 0.084 うーん、8.4% ってことかー。 これってけっこーびみょーだけど、95%以内は特別じゃありませんっていう基準だったら、有意な違いは無いってことになるね。 ってことは、「アニメファンだからって、もてないわけじゃない」んだよ。 もしこれが 0.05 以下だったら、アニメとモテ度にははっきりと関係ありってことになるから・・・ぎりぎりセーフってとこだね。
えっ、ミクは表のどこに入ってるか?(ギクギクギクッ)
・・・えっ、いまのでどこに入っているのかわかっちゃったって?
さあ、統計を使ってみよう
さて、長かったような、短かったような、ミクの統計入門は今回でいちおーおしまいです。
統計とか、数学とかって、むずかしい記号がいっぱいで、みんなの嫌われ者なんだけど・・・ほんとはかわいそうなんだ。 |