Last updated: 2015 - October 2008. Kajiyama                    [ 目次に戻る ]

ピアソンの積率相関係数と(無相関)検定


  1. 2変数XYの関係の表現

    (1) 量的変数(数値)Yと量的変数(数値)Xの関係を「相関」といい,相関係数rで表す.積率相関係数と順位相関係数がある.

    (2) 量的変数(数値)Yと質的変数(カテゴリーデータ)Xの関係を「相関」といい,相関係数でなく相関比ηで表す.

    (3) 質的変数(カテゴリーデータ)Yと質的変数(カテゴリーデータ)Xの関係を「関連」といい,連関係数で表す.

       ファイ係数φとクラメールの連関係数 Vがある.


  2. 量的な2変数XYの関係

    (1) 変数Xの数値の高いほど変数Yの数値が高くなるというような,量的な2変数の関係を「相関」という.

      これに対し質的な2変数の関係を「連関」という.

    (2) ピアソンの積率相関係数rは,2変数XY間の直線的関係について調べるものである.

      r=0であっても,直線的関係がないことを示すだけでなんら関係がないことを示すものではない.

      2変数XY間に曲線的関係がある場合,rは有効でない.

      相関係数は順序尺度である.比例尺度ではないのでr=0.6はr=0.3の2倍と考えない.

    (3) 2変数XYの散布図を描き

    ・ 単調増加や,単調減少が見られる場合は,ピアソンの積率相関係数rを使用しない.

      相関分析には,スピアマンの順位相関係数・ケンドールの順位相関係数を適用する.

    ・ Xの増加によりYの増減が範囲により逆転する場合は,関連の強度を表す指標として相関比η(eta)(corelation tatio)が適用される.

    評価 相関係数
    ほとんど相関なし −0.2≦ r ≦0.2
    弱い相関あり −0.4≦ r <−0.2 0.2< r ≦0.4
    中程度の相関あり −0.7≦ r <−0.4 0.4< r ≦0.7
    強い相関あり  −1.0≦ r <−0.7   0.7< r ≦1.0 


  3. 相関係数を検定するとは

    (1) 相関係数の検定とは,標本相関係数rを用いて母集団の相関係数ρについてt分布を用い検定することである.

    (2) データから計算した相関係数は,母集団から抽出した標本についての相関係数であるから,

     これを母集団の相関係数と区別し標本相関係数と呼ぶ.母集団の相関係数は,母相関(母集団相関係数 ρロー)と呼ぶ.

    (3) 帰無仮説は,母集団の相関係数ρはゼロである.対立仮説はρがゼロでない.

    ・p値>0.05有意水準ならば,母集団の相関係数ρはゼロであり,標本相関係数rは5%水準で有意でないといえる.

      2つの変数XY間には有意な相関がないと判断する.

    ・p値≦0.05ならば,母集団の相関係数ρはゼロで無く,標本相関係数rは5%水準で有意であるといえる.

     2つの変数XY間には有意な相関があると判断する.


  4. 使用する「データ」の表示とデータ構造の確認

    ・「コンソール」 画面に,

    str (iris) #   と記述すると,「iris」のデータ構造が表示され,5変数の名前と,型が表示される.

    ・Sepal.Length: num 数値型 ・Sepal.Width : num 数値型 ・Petal.Length: num 数値型 ・Petal.Width : num 数値型

    ・Species  : Factor 因子型

      あやめの大きな3枚のはなびらは,「Sepal がく片」で,小さな3枚のはなびらが,「Petal 花びら」である.

    Sepal「がく片」の長さと幅・Petal「花びら」の長さと幅

    Species「あやめ3品種 [setosa・versicolor・virginica]」

  5. 「iris」データの「がく片の長さ」と「がく片の幅」の散布図の作図と画像ファイル保存

    ・「コンソール」 画面に,

    plot( Sepal.Width ~ Sepal.Length, data=iris) #   縦軸第2変数[Sepal.Width]と横軸第1変数[Sepal.Length]の散布図を作図する

    # と記述すると,「iris」データの第1変数「がく片の長さ」と第2変数「がく片の幅」の散布図が表示される.

    散布図・画像の保存は,「ファイル」−>「別名で保存」−>「Png」あるいは「Jpeg」」で保存する.

    三種類のあやめ[setosa・versicolor・virginica]のデータを同時にプロットしているので分布は一様になっている.



  6. 「ピアソンの積率相関係数」の計算

    cor.test( データフレーム名 $ 変数名01, データフレーム名 $ 変数名02, method="p")


    (1) 「コンソール」 画面に,

    cor.test( iris $ Sepal.Length, iris $ Sepal.Width)

    # と記述すると,「iris」データの第1変数「がく片の長さ」と第2変数「がく片の幅」のpearsonの積率相関係数が計算される.

    以下の書式でも同じ結果となる.

    cor.test( iris $ Sepal.Length, iris $ Sepal.Width, method="p") # method="p"

    cor.test( iris $ Sepal.Length, iris $ Sepal.Width, method="pearson") # method="pearson"


    > cor.test( iris $ Sepal.Length, iris $ Sepal.Width)

    Pearson's product-moment correlation      # ピアソンの積率相関係数

    data: iris$Sepal.Length and iris$Sepal.Width
    t = -1.4403, df = 148, p-value = 0.1519            # t値,自由度,p値
    alternative hypothesis: true correlation is not equal to 0 # 対立仮説 ρ(ロー)≠0
    95 percent confidence interval:                # 95%信頼区間
    -0.27269325 0.04351158
    sample estimates:
    cor
    -0.1175698                              # 相関係数

    (2) 結果の読み方

    ・相関係数はr=-0.1175698であり,2変数間にほとんど相関がないことを示している.

    ・相関係数rを用いて母集団相関係数(母相関)ρに関する検定を行う.

     これはt分布を用いた相関係数の検定となる.結果はt値= -1.4403, df・自由度 = 148, p-value・p値 = 0.1519

     p値が有意水準0.05(5%)より大きいので2つの変数「がく片の長さ」と「がく片の幅」の間には有意な相関があるとはいえない.

    ・これは三種類のあやめ[setosa・versicolor・virginica]の150サンプルを同時に分析したので生じているかもしれない.

     さらにグループ別(あやめの品種別)の検討が必要である.



    参考 同じデータを順位相関分析すると


  7. 「スピアマンの順位相関係数 ρロー」の計算

    cor.test( データフレーム名 $ 変数名01, データフレーム名 $ 変数名02, method="s")

    (1) 「コンソール」 画面に,

    cor.test( iris $ Sepal.Length, iris $ Sepal.Width, method="s") # method="s"

    # と記述すると,「iris」データの第1変数「がく片の長さ」と第2変数「がく片の幅」のspearmanの順位相関係数が計算される.

    以下の書式でも同じ結果となる.

    cor.test( iris $ Sepal.Length, iris $ Sepal.Width, method="spearman") # method="spearman"


    > cor.test( iris $ Sepal.Length, iris $ Sepal.Width, method="s")

    Spearman's rank correlation rho        # スピアマンの順位相関係数

    data: iris$Sepal.Length and iris$PSepal.Width
    S = 656283.3, p-value = 0.04137              # S値,p値
    alternative hypothesis: true rho is not equal to 0    # 対立仮説 ρ≠0
    sample estimates:
    rho
    -0.1667777                           # 相関係数

    Warning message:
    In cor.test.default(iris$Sepal.Length, iris$Sepal.Width, method = "s") :
    タイのため正確な p 値を計算することができません


    (2) 結果の読み方

    スピアマンの順位相関係数ρ= -0.167,有意水準5%で有意である.p値=0.04.

    (帰無仮説は「2つの変量は無相関である」,対立仮説は「2つの変量には相関がある」)

    2つの変数,がく片の長さと幅(Sepal.LengthとSepal.Width)の順位は関連がない.


  8. 「ケンドールの順位相関係数 τタウ」の計算

    cor.test( データフレーム名 $ 変数名01, データフレーム名 $ 変数名02, method="k")

    (1) 「コンソール」 画面に,

    cor.test( iris $ Sepal.Length, iris $ Sepal.Width, method="k") # method="k"

    # と記述すると,「iris」データの第1変数「がく片の長さ」と第2変数「がく片の幅」のkendallの順位相関係数が計算される.

    以下の書式でも同じ結果となる.

    cor.test( iris $ Sepal.Length, iris $ Sepal.Width, method="kendall") # method="kendall"


    > cor.test( iris $ Sepal.Length, iris $ Sepal.Width, method="k")

    Kendall's rank correlation tau          # ケンドールの順位相関係数数

    data: iris$Sepal.Length and iris$Sepal.Width
    z = -1.3318, p-value = 0.1829                # z値,p値
    alternative hypothesis: true tau is not equal to 0     # 対立仮説 ρ≠0
    sample estimates:
    tau
    -0.07699679                           # 相関係数


    (2) 結果の読み方

    ケンドールの順位相関係数τ= -0.077,有意水準5%で有意でない.p値=0.18

    (帰無仮説は「2つの変量は無相関である」,対立仮説は「2つの変量には相関がある」)

    2つの変数,がく片の長さと幅(Sepal.LengthとSepal.Width)の順位は関連がない.

ピアソンの積率相関係数と検定                          [ 目次に戻る ]