Last updated: December 2012 -October 2009. Kajiyama                    [ 目次に戻る ]

一元配置の実験データを分散分析 概要


  1. 一元配置の実験計画あるいは調査計画

    (1) 3群以上の平均値の差を検定するには分散分析を使用する.

    (2) 分散分析は測定値(量的データ)に対してその因子(要因)にカテゴリカルデータを使用する.分散分析と共分散分析の違いを調べておく.

    (3) ある特性値(測定値:数値データ)に対して,1つの因子(要因)Aと誤差の影響を区別して検討したいときに,一元配置の実験計画が用いられる.

    実験の測定値にほかの因子の影響が入り込まないように,実験・測定の順次や被験者の選定をランダムに行うような注意が必要である.

    用語:分散分析では,因子(factor)と水準(level)を用いてデータを説明する.

    因子A とは実験結果に影響を与える要因を定義できる因子で想定する.因子が一個であるから一元配置と呼ぶ.

    因子Aをいくつかのカテゴリーに分け,水準A1,水準A2,水準A3,水準A4 とし水準間の影響の違いを検討する.

    測定値は一種類で一元配置の分散分析は行う(ANOVA).二種類以上の測定値を検討する時は,多変量分散分析(MANOVA)が準備されている.


    表1  四メーカのデジタル測定器による測定実験

      因子 A (メーカ)
    水準 A1
    あー社
    水準 A2
    いー社
    水準 A3
    うー社
    水準 A4
    えー社
    実験の条件 実験01 実験02 実験03 実験04


    目的:四つのメーカのデジタル測定器の性能を知りたい.

    因子Aが「メーカ」で,四メーカのカテゴリーを「あー社」「いー社」「うー社」「えー社」の4水準とする.

    表1に示すように標準化された同じ資料を四メーカの測定器を使用し測定し測定値を得る4つの実験が計画される.

    表1の実験01〜04の組み合わせに対して同じ回数だけ測定を繰り返す.

    メーカごとの測定値の平均値の差で,各メーカの測定器の性能を検討する.


  2. 一要因分散分析のための実験計画と「データの構造」のタイプ


    1. なぜ繰り返した測定値が必要なのか.


    2. 繰り返しがあり「標本数が同じ」データ構造の一元配置

      表1の四メーカの測定実験01〜04に対して,繰り返し四回の測定を行う.4x4の測定は,ランダムに選んだ16人の異なる学生が行う.

      16回の測定値が表2である.この16標本から四メーカのデジタル測定器の母集団の平均値の差を検定する.

      母集団の平均値の差があれば,四メーカのデジタル測定器の性能は同じでは無い,違いがあると言える.


      Rの関数:summary ( aov ( 測定値 ~ A, data=x ) ) # 「因子A対応なし・標本数が同じ」一元配置の基本書式


      表2 実験の条件ごとに繰り返し測定を行う 十六人の実験者による四メーカの測定結果 「水準ごとに,繰り返す標本数が同じ」

        因子 A (メーカ)
      水準 A1
      あー社
      水準 A2
      いー社
      水準 A3
      うー社
      水準 A4
      えー社
      実験の条件 実験01 実験02 実験03 実験04
      サンプル/標本01 測定値01 測定値02 測定値03 測定値04
      02 測定値05 測定値06 測定値07 測定値08
      03 測定値09 測定値10 測定値11 測定値12
      04 測定値13 測定値14 測定値15 測定値16


    3. 「標本数が異なる」データ構造の一元配置

      分散分析では,水準(群)ごとの標本数の違いを区別する.

      表3のように実験の条件ごとに同じ回数繰り返して測定したが,学生が当日欠席したり,また実験に失敗したりして標本数が欠けることがある.

      このような標本数が,表3の「同じでない場合」と表2の「同じ場合」の実験計画を区別する.


      Rの関数:summary ( aov ( 測定値 ~ A, data=x ) ) # 「因子A対応なし・標本数が異なる」


      表3 十六人の四メーカの測定結果 「水準ごとに,繰り返す標本数が異なる」

        因子 A (メーカ)
      水準 A1
      あー社
      水準 A2
      いー社
      水準 A3
      うー社
      水準 A4
      えー社
      実験の条件 実験01 実験02 実験03 実験04
      サンプル01 測定値01 測定値02   測定値04
      02 測定値05 測定値06 測定値07 測定値08
      03 測定値09   測定値11 測定値12
      04 測定値13   測定値15  
      表2 十六人の四メーカの測定結果 「水準ごとに,繰り返す標本数が同じ」

        因子 A (メーカ)
      水準 A1
      あー社
      水準 A2
      いー社
      水準 A3
      うー社
      水準 A4
      えー社
      実験の条件 実験01 実験02 実験03 実験04
      サンプル01 測定値01 測定値02 測定値03 測定値04
      02 測定値05 測定値06 測定値07 測定値08
      03 測定値09 測定値10 測定値11 測定値12
      04 測定値13 測定値14 測定値15 測定値16


    4. 標本に「対応あり」のデータ構造の一元配置

      (1) サンプルが因子Aに「対応なし」のデータ構造の違い

      表2のデータは,水準(群)ごとにランダムに選んだ4x4=16人の異なる学生の測定値であり,表の水準 列方向の数値の並びは,順序を入れ替えてもよい.

      表の行方向の数値の並びは,同じ学生による測定値ではなく,4人の異なった学生の測定値であり,サンプルが因子Aに「対応していない」.

      このようなデータ形式を,「対応なし」と分類する.

      (2) サンプルが因子Aに「対応あり」のデータ

      表4のデータは,表2と数値は同じであるが,4人の学生が四メーカの測定器をそれぞれ使い測定した値である.

      このため表の列方向の数値の並び方は,4人の異なる学生ごとの測定値であり,

      表の行方向は同じ学生が測定したものであり,サンプルが因子A「対応している」.表4の行と列の数値の並び方も意味があることになる.

      このようなデータ形式を,「対応あり」と分類し,因子Aに「対応している」サンプルの誤差を区別して分析する.


      Rの関数:summary ( aov ( 測定値 ~ A + サンプル, data=x ) ) # 「因子Aに対応あり・標本数が同じ」

      Rの関数:summary ( aov ( 測定値 ~ A + Error( サンプル/A ), data=x ) ) # 誤差の扱いでサンプルは因子Aに対応ありと記述


      表4 四人の四メーカの測定結果 「対応あり・標本数が同じ」

        因子 A (メーカ)
      水準 A1
      あー社
      水準 A2
      いー社
      水準 A3
      うー社
      水準 A4
      えー社
      実験の条件 実験01 実験02 実験03 実験04
      サンプル/山田 山田の測定値01 山田の測定値02 山田の測定値03 山田の測定値04
      鈴木 鈴木の測定値05 鈴木の測定値06 鈴木の測定値07 鈴木の測定値08
      蒼井 蒼井の測定値09 蒼井の測定値10 蒼井の測定値11 蒼井の測定値12
      国実 国実の測定値13 国実の測定値14 国実の測定値15 国実の測定値16
      表2 十六人の四メーカの測定結果 「対応なし・標本数が同じ」

        因子 A (メーカ)
      水準 A1
      あー社
      水準 A2
      いー社
      水準 A3
      うー社
      水準 A4
      えー社
      実験の条件 実験01 実験02 実験03 実験04
      サンプル01 測定値01 測定値02 測定値03 測定値04
      02 測定値05 測定値06 測定値07 測定値08
      03 測定値09 測定値10 測定値11 測定値12
      04 測定値13 測定値14 測定値15 測定値16



    5. 標本に「対応あり」のデータ構造で多変量分散分析

      「対応あり」のデータ構造の一元配置,「一要因被験者内計画」の分散分析は,データの分散が「球面性」であることが前提となっているらしい.

      この球面性が成り立たない場合,球面性に依存しない,多変量分散分析 MANOVAを用いることができる.

      「多変量分散分析」は測定値を多変量のまま各水準の平均値とその変動を分析する.

      表4のデータの因子Aの水準を,表5,表6のように,測定値01,測定値02,測定値03,・・・と置き換える.

      Rの関数:result <- manova( cbind(計測01, 計測02, 計測03, 計測04) ~ 測定値) #  と記述し,@多変量分散分析を行う.

      Rの関数:summary(result, test="Pillai") #   と記述し,4測定値まとめてA多変量分散分析の結果でPillai のトレース検定する.

      Rの関数:summary(result, test="Wilks") #   と記述し,4測定値まとめてB多変量分散分析の結果でWilk's Lambdaの検定する.

      Rの関数:summary(result, test="Hotelling-Lawley") #   と記述し,4測定値まとめてC多変量分散分析の結果でHotelling-Lawleyのトレース検定する.

      Rの関数:summary(result, test="Roy") #   と記述し,4測定値まとめてC多変量分散分析の結果でRoyのトレース検定する.


      表5 四人の四メーカの測定結果 「対応あり・標本数が同じ」

        メーカの計測値
      水準 A1
      あー社
      水準 A2
      いー社
      水準 A3
      うー社
      水準 A4
      えー社
      測定者 計測01 計測02 計測03 計測04
      山田 山田の測定値01 山田の測定値02 山田の測定値03 山田の測定値04
      鈴木 鈴木の測定値05 鈴木の測定値06 鈴木の測定値07 鈴木の測定値08
      蒼井 蒼井の測定値09 蒼井の測定値10 蒼井の測定値11 蒼井の測定値12
      国実 国実の測定値13 国実の測定値14 国実の測定値15 国実の測定値16
      表6 四人の年間成績の変化 「対応あり・標本数が同じ」

        A科目成績の移り変わり
      水準 A1
      1学期の成績
      水準 A2
      2学期の成績
      水準 A3
      3学期の成績
      水準 A4
      4学期の成績
      測定者 計測01 計測02 計測03 計測04
      山田 山田の測定値01 山田の測定値02 山田の測定値03 山田の測定値04
      鈴木 鈴木の測定値05 鈴木の測定値06 鈴木の測定値07 鈴木の測定値08
      蒼井 蒼井の測定値09 蒼井の測定値10 蒼井の測定値11 蒼井の測定値12
      国実 国実の測定値13 国実の測定値14 国実の測定値15 国実の測定値16



  3. 正規性の検定(test for normal distribution)


    分散分析は,母集団の分布の正規性の仮定の上で構築されているので,測定値の分布に正規性があるか検討する.



  4. 等分散性の検定(test of homogeneity of variance)


    分散分析は,分散が等しいという仮定の上で構築されているので標本の測定値にもとづいて分散が一様であるか検討する.

    各水準A i の標本サンプルは正規母集団からの標本であり,どの水準A i の母分散も全て等しいという解が成り立つことが分散分析前提である.

    3組以上の,各水準A i の母分散は全て等しいが成り立つか調べる.

    a. バートレットの検定(Bartlett test) 各水準A i の繰り返し数が異なる場合にも使用できる.R関数はbartlett.test( )

    b. ハートレイの検定(Hartley's test) 各水準A i の繰り返し数が同じ場合に使用する.

    c. ルービンの検定(Levene test) R関数はlevene.test( )

    p値が0.05以下のときに水準の分散は等しくないと結論する.

    各水準の分散が等しければRのaov( )関数による分散分析に進む.


    分散の等質性(等分散性)が成り立たない場合,oneway.test関数で分散分析に進む.

    分散の等質性(等分散性)が成り立たない場合,あなたが設定した水準の見直,水準を増やしたり統合したりすることも必要と考える.



  5. 一元配置の分散分析


    データの構造によるR関数の注意: [対応なし・対応あり],[標本数が同じ・標本数が異なる]の違いで選択するパラメータが異なる.


    一元配置のデータを分散分析することは,測定値の総変動から, 因子Aによる変動と誤差変動を分離して,測定値への影響を検討することである.

    分散分析の帰無仮説は「各水準(群)の母集団の平均値は等しい」である.

    対立仮説は,「全ての水準(群)の組み合わせに平均値の差がある」のでなく,「各水準(群)の少なくとも一組に平均値の差がある」


    分析結果は表5の分散分析表で示す.表の中でP値が0.05より小さいものを探す.あれば,

    因子Aについて,P値<0.05であることから,帰無仮説は棄却され,対立仮説が採択される.

    因子Aの4水準の平均値は5%で有意差が認められる.メーカ(A1〜A4)の測定値に差があるといえる.


    表5 分散分析表 「対応なしの場合」


    変動因子
     
    自由度
    (変動)
    平方和
    (不偏分散)
    平均平方和
    (分散比)
    F値
    F値
    Pr(>F)
    p値
    因子A 3 3.8769 1.2923 4.4594 0.02525 *
    誤差E 12 3.4775 0.2898    

    有意性の記号 : *** p<.001 (0.1%で有意) ** p<.01 (1%で有意) * p<.05 (5%で有意)



  6. 一元配置の多重比較(multiple comparison)


    ・一元配置の分散分析は,因子Aの差の有無について調べることである.

    ・しかし,分散分析では,因子Aの水準間に差があることは示せても,水準A1〜水準A4間(どの水準とどの水準)に差があるかは,明らかにしない.

    ・個々の水準間の差を見るため,多重比較の事後検定(下位検定)が必要になる.多重比較のほかに効果量で分析できる.


    データの構造により,使用するR関数の注意が必要: [対応なし・対応あり],[標本数が同じ・標本数が異なる]の違いで選択するパラメータが異なる.
     
    1. テューキーの方法(Tukey's Honestly Significant Difference test (HSD))

      R関数としてTukeyHSD ( aov ( 分析値 ~ 水準, data=y ) "水準", ordered = TRUE)

      (1) テューキーの方法は「対応あり」には用いない.

        ・「対応あり」にはボンフェローニ法/ホルム法を用いる.これらは「対応なし」も使い分けられる.

        ・林智幸,新見直子,"厳格化の観点からの多重比較法の整理",広島大学大学院教育学研究科紀要第三部第54号,2005, 189-196.

      (2) テューキーの方法は標本数が同じ場合に用いることになっている.

        ・標本数が異なる場合はテューキー・クレーマーの方法(Tukey-Kramer)がある.青木先生のR関数テューキー・クレーマーの方法

        ・しかし,Rの関数TukeyHSDでは拡張され,標本数が異なる場合も処理できるようだ.


    2. ボンフェローニ法(Bonferroni) 対応あり・なしで使用. R関数としてpairwise.t.test (y$分析値 , y$水準, p.adjust.method="bonferroni")

    3. ホルム法(Holm's method) 対応あり・なしで使用. R関数としてpairwise.t.test (y$分析値 , y$水準, p.adjust.method="holm")

    4. シェフェの方法(Scheffe's test)による線形対比   青木先生のR関数 線形比較−−シェッフェの方法を体験する.

      があり,一元配置で用いられる.テューキーの方法/ボンフェローニ法/ホルム法は2つの水準間の差を検定するために使用し,

      シェフェの方法は2水準間でなく水準をいくつかのグループとして,グループ間の比較検定する.



    このグラフの中で0を含まないものは,水準A1-水準A4と水準A2-水準A4である.この場合は明らかに両水準間に母平均の差が認められると判断する.

    研究の目標は,測定能力のあるメーカを探すことなので,水準 A4えー社は安くても採用しないほうがよいと上司に進言する.



  7. 私も含めて,各自,理解するために,欠けている知識の文献を集めます.で.


    1. 実験計画法

      実験計画法 -Wikipedia

      実験計画法 増山 元三郎 著 -鹿児島大学 不明

    2. 分散分析解説

      ハンバーガーショップで学ぶ楽しい統計学 -平均から分散分析まで -早稲田大学

      ・要約 私のための統計処理 基礎解説-ANOVA

      分散分析 フリー百科事典ウィキペディア -Wikipedia

    3. Rによる分散分析手法の解説

      「心理学のためのデータ解析テクニカルブック」の例題

      Rの基本パッケージ中の分散分析関数一覧 -RjpWiki

      二元配置分散分析

      分散分析の事前検定

      ・練習問題解説 言語Rによる分散分析-心理学のためのデータ解析テクニカルブックの例題 -中部大学

      分散分析の例題

      分散分析の例題

      分散の均一性の検定(Rによるバートレットの方法)-群馬大学

      平均値の多重比較(Rによるテューキーの方法)-群馬大学

    4. 多重比較解説

      ・Rによる一因子分散分析と多重比較 (pdf)-広島大学

        [ サンプルデータや補足情報 ]

      ・心理生理学データの分散分析 (pdf)-多重比較-広島大学 不明

一元配置の実験データと分散分析                   [ 目次に戻る ]