Last updated: October 2009. Kajiyama                    [ 目次に戻る ]

datasets"iris"による,あやめのがく片(Sepal)の長さの分析: 一元配置の分散分析と多重比較

(対応なし・標本数は同じ)


  1. 「対応なし・標本数が同じ」場合の練習課題

    あやめには,「setosa」「versicolor」「virginic」の種類がある.

    このあやめの品種(因子A)について,各々50標本ずつ,「がく片(Sepal)」の長さ(測定値)を測定した.

    がく片の長さは品種別に違いがあるか調べたい.

    3品種の母集団のがく片の長さの平均値に差があるか,有意水準5%で検討する.


    表1  あやめのがく片(Sepal)の長さ 「アンスタック形式」

      Sepal.Length: がく片の長さ
    Sepal.Width : がく片の幅
    Petal.Length: 花びらの長さ
    Petal.Width : 花びらの幅
    がく片の長さ
    サンプル
    01
    02
    ・・
    50
    平均値
    水準A1
    setosa
    水準A2
    versicolor
    水準A3
    virginica
         
         
         
         
    5.006 5.936 6.588


  2. 使用する「iris」のデータ構造の確認


    (1) 「irisデータ」 (スタック形式)のデータリスト

    ・「コンソール」 画面に,

    iris   と記述すると,Rに組み込みこまれているFisherの研究で使われた「iris」データ 150サンプルが表示される.



  3. 1因子Aの基礎統計


    a. 因子Aの基礎統計量  種(Species)別のがく片の長さ(Sepal.Length)についての基礎統計量

    Rの「コンソール」画面に,

    by ( iris$Sepal.Length, iris$Species, summary) #   と記述し,種(Species)別の基礎統計利用を計算する.

    > by ( iris$Sepal.Length, iris$Species, summary)
    iris$Species: setosa
       Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
      4.300   4.800   5.000   5.006   5.200   5.800 
    ---------------------------------------------------------------------- 
    iris$Species: versicolor
       Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
      4.900   5.600   5.900   5.936   6.300   7.000 
    ---------------------------------------------------------------------- 
    iris$Species: virginica
       Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
      4.900   6.225   6.500   6.588   6.900   7.900 
    


    b. 因子AB別の平均値の推移図   # plotMeans関数を使用するにはパッケージ 「Rcmdr」を読み込んでおくこと

    種別(Species)のがく片の長さ(Sepal.Length)の「箱ひげグラフ」と「平均値の推移図」の作成



    boxplot (iris$Sepal.Length ~ iris$Species) #  と記述し,箱ひげグラフを表示する.

    plotMeans ( iris$Sepal.Length, iris$Species, error.bars="se") #  と記述し,平均値の推移図を表示する.


    c. グラフの観察

    水準A1(setosa),水準A2(versicolor),水準A3(virginica)ごとに平均値の大きさが異なることが観察される.



  4.  バートレット(Bartlett)の検定--分散の等質性(等分散性)の検定


    3水準(3群)の分散が等しいか,あるいは等しくないかを検定する.3水準のデータの分散は等質であるとの帰無仮説を立てる.

    分散分析は,分散が等しいという仮定の上で構築されているので標本の測定値にもとづいて分散が一様であるか検討する.

    ただし,分散分析のF検定はその前提条件が崩れても,検定結果は信頼できるといわれている.


    Rの「コンソール」画面に,

    bartlett.test ( iris$Sepal.Length ~ iris$Species ) #  と記述し,「スタック形式」のデータで,分散の等質性の検定を行う.

    バートレットの検定は水準ごとの標本の数が同じでない場合も使用できる.

    p値が0.05以下のときに水準の分散は等しくないと結論する.


    >  bartlett.test ( iris$Sepal.Length ~ iris$Species )
    
            Bartlett test of homogeneity of variances
    
    data:  iris$Sepal.Length by iris$Species 
    Bartlett's K-squared = 16.0057, df = 2, p-value = 0.0003345
    

    分析結果

    p値が0.0003であり,p値<0.05であるので各水準の分散は等しくないと結論する.

    分散の等質性(等分散性)が成り立たない場合,oneway.test関数で分散分析に進む.

    分散の等質性(等分散性)が成り立たない場合,設定した水準の見直,水準を増やしたり統合したりすることも必要かもしれません.



  5. 等分散性を仮定しない,種別(Species)のがく片の長さ(Sepal.Length)を,「対応なし」で一元配置・分析分散分析する oneway.test ()


    (1) 等分散性を仮定しない平均値の差の検定としてoneway.test関数がある.これはWelchの方法を拡張した検定法で,

    oneway.test( iris$Sepal.Length ~ iris$Specie )
    # と記述する.

    > oneway.test( iris$Sepal.Length ~ iris$Specie )
    
            One-way analysis of means (not assuming equal variances)
    
    data:  iris$Sepal.Length and iris$Specie 
    F = 138.9083, num df = 2.000, denom df = 92.211, p-value < 2.2e-16
    

    調べた150標本の「あやめは」どれひとつ同じものでは無いので,「対応なし」で一因子3水準の分散分析を行う.

    「3種類のがく片の長さの母集団の平均値に差があるか」,有意水準5%で検討する.

    帰無仮説は「3水準(3種類のあやめ)の母集団のがく片の長さの平均値は等しい」.

    対立仮説は,「全ての水準の組み合わせに平均値の差がある」のでなく,「3水準の少なくとも一組に平均値の差がある」.



    結果は,p値=2.2e-16 < 0.05 であり,対立仮説が採択され,

    三種類のあやめのがく片の長さ(Sepal.Length)の平均値には差があるといえる.


    (2) oneway.test関数で分散性が等しい( var.equal=TRUE )と仮定した場合の平均値の差の検定では,

    oneway.test( iris$Sepal.Length ~ iris$Specie, var.equal=TRUE ) # と記述する.

    >oneway.test( iris$Sepal.Length ~ iris$Specie, var.equal=TRUE )
    
            One-way analysis of means
    
    data:  iris$Sepal.Length and iris$Specie 
    F = 119.2645, num df = 2, denom df = 147, p-value < 2.2e-16
    

    結果は,p値=2.2e-16 < 0.05 であり,対立仮説が採択され,

    三種類のあやめのがく片の長さ(Sepal.Length)の平均値には差があるといえる.

    次の,aov ( iris$Sepal.Length ~ iris$Specie ) 関数と同じ結果になる.


  6. 練習で仮に,分散性が等しいと仮定した場合,

    種別(Species)のがく片の長さ(Sepal.Length)を,「対応なし」で一元配置・分散分析する aov ()



    仮に,各水準の分散は等しいとして,分散分析に進む場合は.

    調べた150標本の「あやめは」どれひとつ同じものでは無いので,「対応なし」で一因子3水準の分散分析を行う.

    「3種類のがく片の長さの母集団の平均値に差があるか」,有意水準5%で検討する.

    帰無仮説は「3水準(3種類のあやめ)の母集団のがく片の長さの平均値は等しい」.

    対立仮説は,「全ての水準の組み合わせに平均値の差がある」のでなく,「3水準の少なくとも一組に平均値の差がある」.



    Rの「コンソール」画面に,

    summary ( aov ( iris$Sepal.Length ~ iris$Specie ) )

    と記述し,「スタック形式」のデータで,「対応なし」分散分析を行う.

    > summary ( aov ( iris$Sepal.Length ~ iris$Specie ) )
                 Df Sum Sq Mean Sq F value    Pr(>F)    
    iris$Specie   2 63.212  31.606  119.26 < 2.2e-16 ***
    Residuals   147 38.956   0.265                      
    ---
    Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 
    有意性の記号 :    ***  (0.1%で有意)  **  (1%で有意)   *  (5%で有意)
    
    
    分散分析表が表示される.これを整形すると,以下のようになる.
    
    -----------------------------------------------------------
                (変動) (不偏分散) (分散比)
    変動要因    自由度  平方和  平均平方和   F値    P値    
    -----------------------------------------------------------
    因子A          2    63.212  31.606     119.26  2.2e-16 ***
    誤差E        147    38.956   0.265                     
    -----------------------------------------------------------
    *** p<.001   
    分析結果

    因子AのA1〜A3の水準間の変動について,P値<0.001であることから,帰無仮説は0.1%の水準で棄却され,対立仮説が採択される.

    3水準の平均値は0.1%で有意差が認められる.三種類のあやめのがく片の長さ(Sepal.Length)の平均値には差があるといえる.


  7. 「対応なし・標本数が同じ」場合の多重比較


    分散分析では,どの水準とどの水準に差があるかは,明らかにしてくれない.このため多重比較の事後検定(下位検定)を行う.

    1. 「対応なし・標本数が同じ」場合の テューキー(Tukey)の方法

      Rの「コンソール」画面に,

      TukeyHSD ( aov ( iris$Sepal.Length ~ iris$Specie ) )

      と記述し,Tukey(テューキー)の方法で多重比較を行う.

      > TukeyHSD ( aov ( iris$Sepal.Length ~ iris$Specie ) )
        Tukey multiple comparisons of means
          95% family-wise confidence level
      
      Fit: aov(formula = iris$Sepal.Length ~ iris$Specie)
      
      $`iris$Specie`
                        95%の信頼区間
                        平均値の差   下限    上限    p値
                            diff       lwr         upr          p adj
      versicolor-setosa    0.930     0.6862273    1.1737727      0
      virginica-setosa     1.582     1.3382273    1.8257727      0
      virginica-versicolor 0.652     0.4082273    0.8957727      0
      


      分析結果

      多重比較の帰無仮説は二群間の平均値には差が無いである.

      [p adj]の欄で有意水準5%以下を捜すと,どの水準間もp値=0である.

      [versicolor-setosa],[virginica-setosa],[virginica-versicolor]の3水準間に0.01%水準以下で有意な差があることがわかる.

      種別のがく片の長さの箱ひげグラフに示すように三種類のあやめのがく片の長さの母集団の平均値は違いがある.

      あやめのがく片の長さの平均値の大きさの順序は, setosa<versicolo<virginica



    2. 「対応なし・標本数が同じ」場合の ボンフェローニ(Bonferroni)法

      Rの「コンソール」画面に,

      pairwise.t.test(iris$Sepal.Length , iris$Specie, p.adjust.method="bonferroni")

      と記述し,Bonferroni法で多重比較を行う.

      >  pairwise.t.test(iris$Sepal.Length  , iris$Specie, p.adjust.method="bonferroni")
      
              Pairwise comparisons using t tests with pooled SD 
      
      data:  iris$Sepal.Length and iris$Specie 
      
                 setosa   versicolor
      versicolor 2.6e-15  -         
      virginica  < 2e-16  8.3e-09   
      
      P value adjustment method: bonferroni 
      

      分析結果

      多重比較の帰無仮説は二群間の平均値には差が無いである.

      有意水準5%以下を捜すと,全ての水準間で限りなく0.0である.

      種別のがく片の長さの箱ひげグラフに示すように三種類のあやめのがく片の長さの母集団の平均値は違いがある.

      あやめのがく片の長さの大きさの順序は, setosa<versicolo<virginica


    3. 「対応なし」「標本数が同じ」場合の Holm法

      Rの「コンソール」画面に,

      pairwise.t.test(iris$Sepal.Length, iris$Specie, p.adjust.method="holm")

      と記述し,Holm法で多重比較を行う.

      >  pairwise.t.test(iris$Sepal.Length, iris$Specie, p.adjust.method="holm")
      
              Pairwise comparisons using t tests with pooled SD 
      
      data:  iris$Sepal.Length and iris$Specie 
      
                 setosa  versicolor
      versicolor 1.8e-15 -         
      virginica  < 2e-16 2.8e-09   
      
      P value adjustment method: holm 
      

      分析結果

      多重比較の帰無仮説は二群間の平均値には差が無いである.

      有意水準5%以下を捜すと,全ての水準間で限りなく0.0である.

      種別のがく片の長さの箱ひげグラフに示すように三種類のあやめのがく片の長さの母集団の平均値は違いがある.

      あやめのがく片の長さの大きさの順序は, setosa<versicolo<virginica

一元配置分散分析と多重比較 (対応なし・標本数は同じ)     [ 目次に戻る ]