Last updated: October 2009. Kajiyama                    [ 目次に戻る ]

独立な2群の平均値の差に関するt検定とウェルチの方法  (1)「アンスタック形式」


  1. 2つの平均値を比べる

    ・男女でお小遣いの金額(平均値)に違いがあるか.

    ・2つのお店で売っている饅頭の重さ(平均値)に違いがあるか.

    ・実験群と統制群(対照群)の成績(平均値)に違いがあるか.

    これを検討するには,直接には2つのグループから標本を抽出して標本の平均金額,重さの平均値を調べ,

    調べた標本の平均値から,その背後にある母集団の平均値を推測する.

    ・2つの平均値の比較にt検定が使用される.


    表1  [男性]と[女性]テストの図形科学の成績 10点満点

    ランダムに選んだ男女9人ずつの学生の成績から男女間にテストの成績(テストの平均値)に違いがあるかをt検定する.

    男性 女性
    10 9
    9 10
    9 8
    9 10
    7 8
    8 7
    6 7
    7 5
    5 7


  2. データフレームの読み込みと確認

    (1) データフレームの読み込み

    ここでは,「Web上の表シート」あるいは「エクセルの表計算シート」からクリップボード経由で読み込む操作を行う.

    Rの「コンソール」画面に,

    x <- read.table("clipboard", header=TRUE    )   # header=TRUE は第1行が列の変数名

    と記述し, 次に,表1 [男性]と[女性]テストの成績」の緑の部分をマウスで選択し,これをコピーする.

    そして,エンターキーを押す.

    コピーした[clipboard]データファイルを,Rの内部のデータフレーム,ファイル名 x に直接読み込む.


    (2) 読み込んだデータフレームの確認

    x #     と記述し,Rの内部に作成したデータフレーム x を,表示し確認する.

    > x <- read.table("clipboard", header=TRUE )
    > x
       男性  女性
    1    10      9
    2     9     10
    3     9      8
    4     9     10
    5     7      8
    6     8      7
    7     6      7
    8     7      5
    9     5      7
    


    (3) データフレームの構造確認

    str (x) #     と記述し,Rの内部のデータフレーム x の変数の内容を表示確認する.

    > str (x)
    'data.frame': 9 obs. of  2 variables:
     $ 男性: num  10 9 9 9 7 8 6 7 5
     $ 女性: num   9 10 8 10 8 7 7 5 7
    


    (4) データフレームの平均値と基礎統計量

    summary (x) #     と記述し,Rの内部のデータフレーム x の要約統計量を表示確認する.

    apply (x[1:2], 2, var) #     と記述し, x の不偏分散を表示確認する.

    apply (x[1:2], 2, sd) #     と記述し, x の不偏標準偏差を表示確認する.

    > summary (x)
          男性       女性
     Min.  : 5.000  Min.  : 5.000
     1st Qu.: 7.000  1st Qu.: 7.000
     Median : 8.000  Median : 8.000
     Mean  : 7.778  Mean  : 7.889
     3rd Qu.: 9.000  3rd Qu.: 9.000
     Max.  :10.000  Max.   :10.000
    
    
    > apply (x[1:2], 2, var)  # 不偏分散
        男性     女性 
    2.694444 2.611111 
    
    > apply (x[1:2], 2, sd) # 不偏標準偏差
        男性     女性 
    1.641476 1.615893 
    


    (5) 箱ひげグラフの作成  box-whisker plot

    boxplot ( x[,1], x[,2] ) #     と記述し,変数ごとの分布を観察できる箱ひげグラフを作成する.

    boxplot ( x$男性, x$女性 ) #   でも同じ結果になる.

    男性の平均 7.8 女性の平均 7.9の平均値の違いがあるが,データのばらつきに違いがあるとは観察されない.平均値の違いを検定して確かめる.


  3. 分散の等質性の検定 「2群の分散が等しい場合・等分散を判別する」

    2群の分散が等しいか,あるいは等しくないかを検定する.2群の分散は等質であるとの帰無仮説を立てる.

    2群の分散が等しい場合,「t検定」を行ことができる.2群の分散が等しくない場合,「ウェルチのt検定」を行う.

    (1) Rの「コンソール」画面に,

    var.test ( x$男性, x$女性 ) # と記述し検定を行う.  var.test (データファイル名 $ 変数1,データファイル名 $ 変数2,)

    var.test ( x[,1], x[,2] ) # と記述しても同じ.  var.test (データファイル名[ ,1],データファイル名[ ,2])

    > var.test ( x$男性, x$女性 )

    F test to compare two variances           2つの分散の比較のためのF検定

    data: x$男性 and x$女性            データの変数 男性と女性
    F = 1.0319, num df = 8, denom df = 8, p-value = 0.9656
    検定統計量F =1.0319 分子の自由度 num df = 8, 分母の自由度 denom df = 8, p値 p-value = 0.9656
                                                 両側検定 男性>女性 男性<女性
    alternative hypothesis: true difference in means is not equal to 1    対立仮説は母分散の比が1ではない
    95 percent confidence interval:                       95%信頼区間の下限と上限の値
     0.2327666      4.5747469
    sample estimates:
    ratio of variances                            標本から計算された分散の比
     1.031915            

    女性, 男性の順序を変えると,

    > var.test ( x$女性, x$男性 )

    F test to compare two variances           2つの分散の比較のためのF検定

    data: w$女性 and w$男性            データの変数 男性と女性
    F = 0.9691, num df = 8, denom df = 8, p-value = 0.9656
    検定統計量F =0.9691 分子の自由度 num df = 8, 分母の自由度 denom df = 8, p値 p-value = 0.9656
                                                 両側検定 男性>女性 男性<女性
    alternative hypothesis: true difference in means is not equal to 1    対立仮説は母分散の比が1ではない
    95 percent confidence interval:                       95%信頼区間の下限と上限の値
      0.2185913       4.2961488
    sample estimates:
    ratio of variances                            標本から計算された分散の比
     0.9690722

    (2) 結果の読み方

    分散の等質性の検定の結果 p値は0.97であり,帰無仮説は棄却できない.

    2群の分散が等しい「等分散」と判断できる. 「t検定」を行う.


  4. 2群の平均値の差に関するt検定 「2群の分散が等しい場合・等分散」 (Two Sample t-test)

    (1) Rの「コンソール」画面に,

    t.test ( x[,1], x[,2], var.equal=TRUE ) # と記述し検定を行う.t.test(データファイル名[ ,1],データファイル名[ ,2], var.equal=TRUE)

    t.test ( x$男性, x$女性, var.equal=TRUE ) # と記述しても同じ.t.test(データファイル名 $ 変数1,データファイル名 $ 変数2, var.equal=TRUE)

    > t.test( x[,1], x[,2], var.equal=TRUE )

    Two Sample t-test           2群の平均値の差に関するt検定

    data: x[, 1] and x[, 2]            データファイル x の変数1と2
    t = -0.1447, df = 16, p-value = 0.8867   検定統計量t = -0.1447 自由度 df = 16, p値 p-value = 0.8867
                                                    両側検定 男性>女性 男性<女性
    alternative hypothesis: true difference in means is not equal to 0
    95 percent confidence interval:       95%信頼区間の下限と上限の値
     -1.738760  1.516537
    sample estimates:
    mean of x mean of y             標本から計算された標本平均値の値
     7.777778  7.888889           変数1男性 7.777778  変数2女性 7.888889


    (2) 結果の読み方

    男性と女性の成績 (成績の平均点) には差がないという帰無仮説を立てる.

     ・p値は 0.9である.有意水準は5%とすると p = 0.9>0.05 と5%より大きいので帰無仮説は棄却できない.

     ・検定結果は有意でない.

    男性の平均 7.8 女性の平均 7.9は差があるとはいえない. 図形科学のテストの成績に男女差があるとはいえない.


  5. ウェルチの方法 2群の平均値の差に関するt検定 「2群の分散が等しくない場合」 (Welch Two Sample t-test)

    (1) Rの「コンソール」画面に,

    t.test ( x[,1], x[,2] ) #  と記述し検定を行う.t.test(データファイル名[ ,1], データファイル名[ ,2])

    t.test ( x$男性, x$女性 ) #  と記述しても同じ.t.test(データファイル名 $ 変数1, データファイル名 $ 変数2])

    > t.test( x[,1], x[,2] )

    Welch Two Sample t-test           ウェルチのt検定

    data: x[, 1] and x[, 2]            データファイル x の変数1と2
    t = -0.1447, df = 15.996, p-value = 0.8867   検定統計量t = -0.1447 自由度 df = 15.996, p値 p-value = 0.8867
                                                    両側検定 男性>女性 男性<女性
    alternative hypothesis: true difference in means is not equal to 0
    95 percent confidence interval:       95%信頼区間の下限と上限の値
     -1.738792  1.516570
    sample estimates:
    mean of x mean of y             標本から計算された標本平均値の値
     7.777778  7.888889           変数1男性 7.777778  変数2女性 7.888889



    (2) 結果の読み方

    男性と女性の成績 (成績の平均点) には差がないという帰無仮説を立てる.

     ・p値は 0.9である.有意水準は5%とすると p = 0.9>0.05 と5%より大きいので帰無仮説は棄却できない.

     ・検定結果は有意でない.

     男性の平均 7.8 女性の平均 7.9 は差があるとはいえない. 図形科学のテストの成績に男女差があるとはいえない.

独立な2群の平均値の差に関するt検定とウェルチの方法  (1)「アンスタック形式」   [ 目次に戻る ]