Last updated: 2014 -October 2008. Kajiyama                    [ 目次に戻る ]

基本統計量と度数分布図を作成


  1. 使用する「データ」の表示とデータ構造の確認

    (1) 「コンソール」 画面に,

    iris #  と記述すると,Rに組み込みこまれているFisherの研究で使われた「iris」データ 5変数 150サンプルが表示される.




    (2) 「コンソール」 画面に,

    str (iris) #  と記述すると,「irisのデータ構造」が表示され,5変数の名前と,型が表示される.

    ・Sepal.Length: num数値型 ・Sepal.Width : num数値型 ・Petal.Length: num数値型 ・Petal.Width : num数値型 ・Species: Factor因子型

      あやめの大きな3枚のはなびらは,「Sepal がく片」で,小さな3枚のはなびらが,「Petal 花びら」である.

    Sepal「がく片」の長さと幅・Petal「花びら」の長さと幅

    Species「あやめ3品種 [setosa・versicolor・virginica]」




  2. 「irisデータ」の基礎統計量

    (1) 「コンソール」 画面に,

    summary (iris) #   と記述すると,「irisデータの要約統計量」の要約が表示される.

    Min. 最小値, 1st Qu. 第1四分位, Median 中央値, Mean 平均値, 3rd Qu. 第3四分位, Max. 最大値.




    (2) 分散や標準偏差の統計量は計算しないので,apply () 関数を用いて計算する.

    apply (iris[1:4], 2, summary ) # 要約統計

    iris[1:4], の記号は,データirisの変数5個のうち,1列目から4列目までの変数01〜変数04を指定する.
    2, の記号は,計算の対象が「行ならば1」,「列ならば2」を指定する.
    summary の記号は統計量の指定.summaryは要約統計値を計算する.

    apply (iris[1:4], 2, sum ) #   合計
    apply (iris[1:4], 2, mean )#   算術平均
    apply (iris[1:4], 2, max ) #   最大値
    apply (iris[1:4], 2, min ) #   最小値
    apply (iris[1:4], 2, median )#  中央値
    apply (iris[1:4], 2, quantile )# 分位数

    apply (iris[1:4], 2, range ) # 範囲(最大値-最小値) ばらつき
    apply (iris[1:4], 2, var ) #  不偏分散
    apply (iris[1:4], 2, sd ) #   不偏標準偏差



    (3) apply () 関数を利用して,「irisデータの不偏分散(unbiased variance)」を計算する.

    標本分散(sample variance)とは異なるので標本標準偏差を手計算する場合には注意する.統計では不偏分散がよく使われる.

    基礎用語を再確認する.
    ・母分散 : 予算があるので母集団の全てを調べた.
    ・標本分散: 予算がないので母集団からサンプルをとって調べた.標本分散=(n-1)/n不偏分散
    ・不偏分散: 予算がないので学生が調べたサンプルから母集団を推理した.

    「コンソール」 画面に,

    apply (iris[1:4], 2, var) # と記述する.

    iris[1:4], の記号は,データirisの変数5個のうち,1列目から4列目までの変数01〜変数04を指定する.
    2, の記号は,計算の対象が「行ならば1」,「列ならば2」を指定する.
    var の記号は統計量の指定.varは不偏分散を計算する.


    > apply (iris[1:4], 2, var) # 不偏分散
    Sepal.Length  Sepal.Width Petal.Length  Petal.Width 
       0.6856935    0.1899794    3.1162779    0.5810063 
    


    (4) apply ()関数を利用して,「irisデータの不偏標準偏差」を計算する.  「コンソール」 画面に,

    apply (iris[1:4], 2, sd) # と記述する.

    iris[1:4], の記号は,データirisの変数5個のうち,1列目から4列目までの変数01〜変数04を指定する.
    2, の記号は,計算の対象が「行ならば1」,「列ならば2」を指定する.
    sd の記号は統計量の指定.sdは不偏標準偏差を計算する.

    sqrt (apply (iris[1:4], 2, var) ) # 同じ結果になる.標準偏差は分散の平方根である.

    > apply (iris[1:4], 2, sd) # 不偏標準偏差
    Sepal.Length  Sepal.Width Petal.Length  Petal.Width 
       0.8280661    0.4358663    1.7652982    0.7622377 
    


  3. 箱ひげグラフの作成  box-whisker plot


    boxplot ( iris[,1],iris[,2],iris[,3],iris[,4] )

    # と記述し,4つの変数の分布を観察できる箱ひげグラフを作成する.

    boxplot ( iris$Sepal.Length, iris$Sepal.Width, iris$Petal.Length, iris$Petal.Width )

    # でも同じ結果になる.



  4. カテゴリ変数「irisデータ」の「Species品種」の棒グラフの作図 barplot(table(データファイル名 $ 変数名))


    「コンソール」 画面に,

    barplot(table(iris $ Species)) #棒グラフの作図

    # と記述すると,「Species品種」別の度数が棒グラフで描かれる.


  5. 数値変数「irisデータ」の「がく片の長さ」のヒストグラムの作図 hist(データファイル名 $ 変数名, right=FALSE)


    「コンソール」 画面に,

    hist(iris $ Sepal.Length, right=FALSE) #ヒストグラムを作図する

    # と記述すると,「irisデータ」の「Sepal.Lengthがく片の長さ」のヒストグラムが表示される.


  6. Lattice Graphicsグラフ用パッケージを使用した「irisデータ」の「がく片の長さ」のヒストグラムの作図


    「コンソール」 画面に,

    library(lattice) #Lattice Graphics のグラフ用パッケージを読み込む

    histogram(~ Sepal.Length, data=iris) #ヒストグラムを作図する

    # と記述すると,「irisデータ」の「Sepal.Lengthがく片の長さ」のヒストグラムが表示される.

[ 目次に戻る ]