Last updated: 2014 -October 2008. Kajiyama                    [ 目次に戻る ]

グループ別に基本統計量と度数分布図を作成


  1. 使用する「データ」の表示とデータ構造の確認

    (1) 「コンソール」 画面に,

    iris # と記述すると,Rに組み込みこまれているFisherの研究で使われた「iris」データ 5変数 150サンプルが表示される.

    > iris
        Sepal.Length Sepal.Width Petal.Length Petal.Width    Species
    1            5.1         3.5          1.4         0.2     setosa
    2            4.9         3.0          1.4         0.2     setosa
    3            4.7         3.2          1.3         0.2     setosa
         ・・・・・・・・・・・・・・・
         ・・・・・・・・・・・・・・・
    149          6.2         3.4          5.4         2.3  virginica
    150          5.9         3.0          5.1         1.8  virginica
    


    (2) 「コンソール」 画面に,

    str (iris) # と記述すると,「irisのデータ構造」が表示され,5変数の名前と,型が表示される.

    ・Sepal.Length: num数値型 ・Sepal.Width : num数値型 ・Petal.Length: num数値型 ・Petal.Width : num数値型 ・Species: Factor因子型

      あやめの大きな3枚のはなびらは,「Sepal がく片」で,小さな3枚のはなびらが,「Petal 花びら」である.

    Sepal「がく片」の長さと幅・Petal「花びら」の長さと幅

    Species「あやめ3品種 [setosa・versicolor・virginica]」

    > str (iris)
    
    'data.frame':   150 obs. of  5 variables:
     $ Sepal.Length: num  5.1 4.9 4.7 4.6 5 5.4 4.6 5 4.4 4.9 ...
     $ Sepal.Width : num  3.5 3 3.2 3.1 3.6 3.9 3.4 3.4 2.9 3.1 ...
     $ Petal.Length: num  1.4 1.4 1.3 1.5 1.4 1.7 1.4 1.5 1.4 1.5 ...
     $ Petal.Width : num  0.2 0.2 0.2 0.2 0.2 0.4 0.3 0.2 0.2 0.1 ...
     $ Species     : Factor w/ 3 levels "setosa","versicolor",..: 1 1 1 1 1 1 1 1 1 1 ...
    


  2. 「irisデータの基礎統計量」を R は簡単に計算する.

    (1) 「コンソール」 画面に,

    summary (iris) # と記述すると,「irisデータの基礎統計量の要約」が表示される.

    Min. 最小値, 1st Qu. 第1四分位, Median 中央値, Mean 平均値, 3rd Qu. 第3四分位, Max. 最大値.

    > summary (iris) # 要約
      Sepal.Length    Sepal.Width     Petal.Length    Petal.Width          Species  
     Min.   :4.300   Min.   :2.000   Min.   :1.000   Min.   :0.100   setosa    :50  
     1st Qu.:5.100   1st Qu.:2.800   1st Qu.:1.600   1st Qu.:0.300   versicolor:50  
     Median :5.800   Median :3.000   Median :4.350   Median :1.300   virginica :50  
     Mean   :5.843   Mean   :3.057   Mean   :3.758   Mean   :1.199                  
     3rd Qu.:6.400   3rd Qu.:3.300   3rd Qu.:5.100   3rd Qu.:1.800                  
     Max.   :7.900   Max.   :4.400   Max.   :6.900   Max.   :2.500                  
    

    分散や標準偏差の統計量は計算しないので,apply () 関数を用いて再度計算する.

    (2) apply () 関数を利用して,「irisデータの不偏分散(unbiased variance)」を計算する.

    標本分散(sample variance)とは異なるので標本標準偏差を手計算する場合には注意する.統計では不偏分散がよく使われる.

    「コンソール」 画面に,

    apply (iris[1:4], 2, var) # と記述する.

    > apply (iris[1:4], 2, var) # 不偏分散
    Sepal.Length  Sepal.Width Petal.Length  Petal.Width 
       0.6856935    0.1899794    3.1162779    0.5810063 
    


    (3) apply ()関数を利用して,「irisデータの不偏標準偏差」を計算する.  「コンソール」 画面に,

    apply (iris[1:4], 2, sd) # と記述する.

    sqrt (apply (iris[1:4], 2, var) ) # 同じ結果になる.標準偏差は分散の平方根である.

    > apply (iris[1:4], 2, sd) # 不偏標準偏差
    Sepal.Length  Sepal.Width Petal.Length  Petal.Width 
       0.8280661    0.4358663    1.7652982    0.7622377 
    



  3. グループ(あやめの3品種 [setosa・versicolor・virginica])ごとの基礎統計量


    ・「iris」データは,あやめの3品種 [setosa・versicolor・virginica],各サンプル50のデータが1つのデータセットとして作られている.

    このため,summary (iris)で計算した基礎統計量はあやめの3品種の平均値となる.

    ・あやめの3品種 [setosa・versicolor・virginica]ごとの基礎統計量を算出する.

    「コンソール」 画面に,

    by ( iris[1], iris[5], summary ) # と記述すると,あやめの3品種(変数05)ごとに「Sepal.Length」(変数01)の統計量が計算される.

    
    > by ( iris[1], iris[5], summary )
    Species: setosa
      Sepal.Length
     Min.       :4.300
     1st Qu.      :4.800
     Median       :5.000
     Mean        :5.006
     3rd Qu.      :5.200
     Max.       :5.800
    ---------------------------------------------------------------------
    Species: versicolor
      Sepal.Length
     Min.       :4.900
     1st Qu.      :5.600
     Median       :5.900
     Mean        :5.936
     3rd Qu.      :6.300
     Max.       :7.000
    ---------------------------------------------------------------------
    Species: virginica
      Sepal.Length
     Min.       :4.900
     1st Qu.      :6.225
     Median       :6.500
     Mean        :6.588
     3rd Qu.      :6.900
     Max.       :7.900
    


    ・あやめの3品種別に,同時に4つの変数,・Sepal.Length ・Sepal.Width ・Petal.Length ・Petal.Width.を算出するには,

    「コンソール」 画面に,

    by ( iris[1:4], iris[5], summary ) # と記述すると,あやめの3品種(変数05)ごとに変数01〜変数04の基礎統計量が計算される.

    [1:4]は,変数01〜変数04 を記述している.

    by ( iris[1:4], iris $ Species, summary ) # と記述しても同じである.試してみる.

    
    > by ( iris[1:4], iris[5], summary )
    Species: setosa
     Sepal.Length   Sepal.Width     Petal.Length    Petal.Width>
     Min.  :4.300  Min.  :2.300  Min.  :1.000  Min.  :0.100
     1st Qu.:4.800  1st Qu. :3.200  1st Qu. :1.400  1st Qu. :0.200
     Median :5.000  Median  :3.400  Median  :1.500  Median  :0.200
     Mean   :5.006  Mean    :3.428  Mean   :1.462  Mean  :0.246
     3rd Qu.:5.200  3rd Qu. :3.675  3rd Qu. :1.575  3rd Qu. :0.300
     Max.  :5.800  Max.  :4.400  Max.  :1.900  Max.  :0.600
    ---------------------------------------------------------------------
    Species: versicolor
     Sepal.Length   Sepal.Width     Petal.Length     Petal.Width
     Min.  :4.900  Min.   :2.000  Min.  :3.00    Min.  :1.000
     1st Qu.:5.600  1st Qu. :2.525  1st Qu. :4.00    1st Qu. :1.200
     Median :5.900  Median  :2.800  Median  :4.35    Median  :1.300
     Mean   :5.936  Mean   :2.770  Mean    :4.26    Mean  :1.326
     3rd Qu.:6.300  3rd Qu. :3.000  3rd Qu. :4.60    3rd Qu. :1.500
     Max.  :7.000  Max.   :3.400  Max.  :5.10    Max.  :1.800
    ---------------------------------------------------------------------
    Species: virginica
     Sepal.Length   Sepal.Width     Petal.Length   Petal.Width
     Min.  :4.900  Min.  :2.200  Min.  :4.500  Min.   :1.400
     1st Qu. :6.225  1st Qu. :2.800  1st Qu. :5.100  1st Qu.  :1.800
     Median  :6.500  Median  :3.000  Median  :5.550  Median   :2.000
     Mean   :6.588  Mean   :2.974  Mean   :5.552  Mean   :2.026
     3rd Qu. :6.900  3rd Qu. :3.175  3rd Qu. :5.875  3rd Qu.  :2.300
     Max.  :7.900  Max.  :3.800  Max.  :6.900  Max.   :2.500
    



  4. Lattice Graphicsグラフ用パッケージを使用した「irisデータ」の「がく片の長さ」のヒストグラム


    (1) 「irisデータ」のあやめのグループ別(品種ごと)の「がく片の長さ」のヒストグラムの作図

    ・「コンソール」 画面に,

    library(lattice) # Lattice Graphics のグラフ用パッケージを読み込む

    histogram(~ Sepal.Length | Species, data=iris) # 品種Speciesごとのヒストグラムを作図する

    「irisデータ」の3品種「setosa・versicolor・virginica」の「がく片の長さ」の3つのヒストグラムが表示される.

    ・「コンソール」 画面に,

    histogram(~ Sepal.Length, data=iris) # と記述すると,

    3品種「setosa・versicolor・virginica」の「がく片の長さ」の3つのグラフを合成したものが得られる.


    ・「コンソール」 画面に,次のコマンドを記述し,変数の品種別ヒストグラムを作成する.

    histogram(~ Sepal.Width | Species, data=iris) # Sepal.Widthのヒストグラムを作図する

    histogram(~ Petal.Length | Species, data=iris) # Petal.Lengthのヒストグラムを作図する

    histogram(~ Petal.Width | Species, data=iris) # Petal.Widthのヒストグラムを作図する

[ 目次に戻る ]