Last Updated: 2015 -August 2013 -2012 -October2010 -2007. Kajiyama     [ 総合案内に戻る ]   [ 表紙に戻る ]
Technical Data presentation in R
コピペで学ぶ Rでテクニカルデータプレゼンテーション

1.基礎統計解析編

グラフィックス・リテラシ−教育:
「図学 I ・図形情報 I ・統計学」科目 修了後のコースウェア

福岡大学工学部図学教室   梶山 喜一郎


・つまみ食いで,学習しないように願います.
・データの可視化を体系・系統だったスキルにするために順を追って学習する.
・統計ブームに乗っている学習者も先人に感謝の気持ちを.さらに,
・確かなスキルにするために,教科書・解説書を理解し,Rスクリプトで確認.

A. はじめに--ここは統計・解析の必要を味わった後で読めばよい
  1. まず,統計の手続きを実行する.慣れたら統計的に考えよう.

  2. 学校の統計学を復習--買った教科書とノートをまた読むだけ
    a. 測定と尺度 Measurement and scale
    b. 記述統計学の測度 度数,平均値,散布度,分散,標準偏差,
    c. 統計的推測 Statistical inference
    d. 統計的仮説検定 Testing of statistical hypothesis
    e. 効果量と計算手続き Effect size and computation
    f. 正規分布,χ2分布,F分布,t分布 Distribution

  3. R言語は大学卒業後も持続的に使える
  4. 日本の大学の統計学習支援WWWサイトを有効に使う
  5. Rで使える統計関数は
B. Rの基本操作 −ここは嫌いでも系統だって体験する
  1. コピペ学習の仕方 --浮いた時間でゆっくりと観察してください
  2. Windows版 R言語のインストールと作業フォルダの設定
    (1) R 3.x for Windowsのダウンロードとインストール(教室は導入済)
      ・R 2.9 for Windowsのダウンロードとインストール
    (2) Rの起動と終了
    (3) Rの初期設定 -「Rgui設定エディター」と「作業フォルダ」
        ・Win_8.1/ Win_7(64bit/32bit)編  ・Win_Vista編  ・Win_XP
    (4) 「Rコンソール」->Rエディタを使用しスクリプトを実行する
    (5) 統計パッケージの「読み込み」と「追加インストール」
    (6) Rに組み込みこまれた練習用のデータセット
    (7) ヘルプで統計関数の情報とマニュアルを参照する
    (8) 解析のための一連のR操作手順
        ・操作:データファイルの入出力
        ・操作:データセット「iris」の解析とグラフ作成の事例学習

  3. Rコマンダーの基本操作 A basic-Statics GUI for R
    (1) Rコマンダー とは (Rcmdr, R Commander) --RjpWiki
    (2) Rcmdrパッケージの追加インストール
    (3) Rコマンダーの操作の手引書
    (4) Rコマンダーの起動と終了
    (5) プラグインのインストールと読み込み --RjpWiki
    (6) 解析のための一連のRコマンダー操作手順
        ・操作:データセット「iris」の解析とグラフ作成の事例学習
          インデックスプロット・箱ひげ図・ヒストグラム・円グラフ
          幹葉表示・QQプロット・ドットチャート・散布図・3次元散布図
C. データの作成・編集と保存 −エクセルで加工 コピペで取り込が楽く
  1. データフレームの新規作成
    (1) Rで使用するデータと関数そして用語
    (2) データフレームとは
    (3) データエディタ (表シート)に直接キー入力
  2. 表形式ファイル(表計算シート)をRの内部に読み込む
    (1) 練習用データのダウンロード
    (2) Web上の表やExcelのデータ画面をコピー・クリップボード経由で読込む
      ・表のコピペがうまくいかなかったら,再度ここを理解する.
    (3) 表形式のテキストファイルを読み込む
    (4) Excel.csv ファイルを読み込む
    (5) Excel.xls ファイルを読み込む 「パッケージ」が必要
  3. Rの外部に表形式ファイル(表計算シート)を保存
    (1) テキストファイルで保存
    (2) Excel.csv ファイルで保存
    (3) Excel.xls ファイルで保存 「パッケージ」が必要
  4. データフレームの編集 ここでできる事はエクセルでできる
    (1) サンプルの抽出と加工--「iris」
      a. 行番号を使いサンプルを抽出
      b. 条件式を使いサンプルを抽出
      c. 大きさでサンプルを並べ替え ソート
      d. 群・要因の水準ごとのサンプルを抽出
      e. サンプルの結合(行追加)
    (2) 変数の抽出と加工--「iris」
      a. データから変数を抽出し,変数の順序を並べ替える
      b. データに新しい変数を追加
      c. 変数の結合(列追加)
      d. 数値変数をカテゴリ変数に
      e. 条件式を用い新しい変数を作成 その1 transform, merge
      f. 条件式を用い新しい変数を作成 その2 paste, gsub
      g. 条件式を用い新しい変数を作成 その3 factor
    (3) データ形式の変換
      a. 「スタック」と「アンスタック」のデータ形式とデータ形式互換
       ・ Rパッケージのreshape2/meltもなれると便利
      b. 「クロス集計表」から「スタック」形式へデータ形式変換
      c. 多重クロス表を「数量化V類や対応分析用」にデータ形式変換
      d. データの行と列の入れ替え(転置行列)
D. クロス表とカテゴリカルデータ解析-- [測定値が質的データ・計数データ]
  敬意を払う人物:
カール・ピアソンロナルド・フィッシャージャンポール・ベンゼクリ
  表のコピペがうまくいかなかったら, 再度ここを理解する.
  1. クロス表(分割表)を作成 A cross table/ A contingency table
    1. 量的データをカテゴリ化し二変数のクロス表を作成
      --「iris」で学習
      (1) 連続した数値データをカテゴリ化
      (2) カテゴリ化した変数で新しいデータフレームを作成
      (3) カテゴリ化した変数からクロス表(分割表)を作成する
      (4) グループ別クロス表(三重クロス表)をイチドキに作成
    2. 質的データから二変数のクロス表を作成
      (1) 変数がカテゴリの原表から分割表を作成
      (2) Rにデータフレームを読み込む
      (3) 変数名を使った分割表の作成
      (4) 合計欄付き 分割表の作成
      (5) 列番号を使った分割表の作成
    3. 多重クロス表:質的データから三変数のクロス表を作成
      (1) クロス集計表を「スタック」形式のデータフレームへ変換
      (2) 「スタック」形式のデータフレームから三重クロス表を作成
      (3) 三重クロス表のグラフ化
    4. 表計算シートをクリップボード経由で読み込み
      (1) 条件式を用い新しい変数を作成保存する手順
      (2) クロス表を作成保存する手順

  2. クロス表の検定 [独立性の検定と効果量]
    1. 二変数(カテゴリカルデータ)クロス表の解析
      (1) 「独立性の検定」と「一様性の検討」
      (2) 二変数の分割表の検定手法
      (3) カイ自乗検定(χ2)検定 (Pearson's Chi-squared test)
      (4) フィッシャーの直接確率 (Fisher's Exact Test)
      (5) 効果量の計算 (effect size)

  3. カテゴリカルデータを対応分析 コレスポンデンス分析
    1. 二変数のクロス表を対応分析 Simple Correspondence Analysis
      ・店舗アンケートで店舗の特徴を把握-シリウス先生の心理統計学
    2. 多重クロス表を多重対応分析 Multiple Correspondence Analysis

  4. カテゴリカルデータを決定木で予測・判別・分類 Decision Tree (回帰木参照)

E. 一〜二変数の要約とクロス表作成----------- [測定値が量的データ]
  表のコピペがうまくいかなかったら, 再度ここを理解する.
  1. 一変数の記述統計--「iris」で事例学習
    (1) 基本統計量(平均・分散・標準偏差)と度数分布図を作成 Histogram
    (2) グループ別に基本統計量と度数分布図を作成

  2. 一変数の度数分布表の作成--「iris」で事例学習
     A frequency distribution table
    (1) table関数を使った度数分布表
    (2) 連続変数をカテゴリ化した度数分布表の作成
    (3) 相対度数(%)のある度数分布表の作成

  3. 二変数の記述統計--「iris」で事例学習
    (1) 2変数の散布図を作成
    (2) 複数の変数間の相関係数をイチドキに求める
    (3) グループ別の相関係数をイチドキに求める
    (4) 量的データのクロス表(分割表)を作成 -「iris分析」-
       ・ 連続した数値データをカテゴリ化する
       ・ カテゴリ化した変数で新しいデータフレームを作成
       ・ カテゴリ化した変数からクロス表を作成する
F. 相関分析と単回帰分析----------------------[測定値が量的データ]
  敬意を払う人物: 
カール・ピアソンモーリス・ケンドール
  1. ピアソンの積率相関係数と(無相関)検定--「iris」で事例学習

  2. 二変数の順位相関と(無相関)検定
    (1) 順位相関係数とは
    (2) スピアマンの順位相関係数
    (3) ケンドールの順位相関係数
  3. 三変数以上の順位相関と(無相関)検定
    (1) ケンドールの一致係数 W
  4. 単回帰分析と予測式の当てはめ A regression analysis
    (1) 直線相関と線形単回帰分析A simple linear regression analysis
    (2) 直線関係に置き換えられる累乗モデルと指数モデル
    (3) 曲線相関と非線形単回帰分析A nonlinear regression analysis
    (4) 自動推定する非線形モデル 累乗モデル・指数モデル
       ・漸近指数モデル・ロジスティク成長モデル・ゴンペルツ成長モデル

  5. 量的データを回帰木で予測・判別・分類 Regression Tree (決定木参照)
G. 平均値の差に関する検定------------------- [測定値が量的データ]
  敬意を払う人物: 
ウィリアム・ゴセット(スチューデント)ロナルド・フィッシャー
  表のコピペがうまくいかなかったら, 再度ここを理解する.
  1. 二群の平均値の差に関する検定 [t検定]---- Two Sample t-test
    1. アンスタック・データ形式
      (1) 独立な2群の平均値の差のt検定とウェルチの方法1(アンスタック)
      (2) 対応のある2群の平均値の差のt検定1(アンスタック)
    2. スタック・データ形式
      (3) 独立な2群の平均値の差のt検定とウェルチの方法2(スタック)
      (4) 対応のある2群の平均値の差のt検定2(スタック)

    3. 三群以上の平均値の差を検定をするには「分散分析」
      (5) 独立な3群以上の平均値の差の分散分析
      (6) 対応のある3群以上の平均値の差の分散分析

  2. 三群以上の平均値の差に関する検定[分散分析と多重比較]-ANOVA
    1. 一要因(カテゴリカルデータ)のaovによる分散分析と多重比較
      (1)
      概要 一元配置の実験データを分散分析

      (2) 一元配置の分散分析と多重比較 (対応なし・標本数が同じ)
         ・ 独立な3群以上の平均値の差の分散分析
         ・ 4人の分析者の測定技能
         ・ "iris"による,あやめの花のがく片の長さ分析(等分散でない)
         ・ "InsectSprays"による,殺虫スプレーの効果分析(等分散でない)
      (3) 一元配置の分散分析と多重比較 (対応なし・標本数が異る)
         ・ 三種類の触媒で作られた製品の製造原価比較
         ・ "chickwts"による,六種類の飼料サプリメントと鶏の体重
      (4) 一元配置の分散分析と多重比較 (対応あり・標本数が同じ)
         ・ 対応のある3群以上の平均値の差の分散分析
         ・ 測定装置四台の分析力
         ・ 三教科の試験の平均値の検定
         ・ "iris"による,あやめ「setosa」の4部位の形状分析 (等分散でない)

    2. 一元配置のmanova多変量分散分析と多重比較 (対応あり・標本数が同じ)
         ・ 概要 多変量分散分析
         ・ "iris"による,あやめの花の形状分析 (多変量)
         ・ "Egyptian"による,古代エジプト人頭蓋骨の年代分析 (多変量)

    3. 二要因(カテゴリカルデータ)のaovによる分散分析と多重比較
      (1) 概要 二元配置の実験データを分散分析
         ・ 二元配置の実験データを分散分析 21-2

      (2) 二元配置を分散分析 (対応なしX対応なし・標本数は1) (多重比較・交互作用なし)
         ・ 原料4種類,反応温度5種類での収率分析 (多重比較・交互作用なし)
      (3) 二元配置を分散分析 (対応なしX対応なし・標本数が同じ)
         ・ 成型温度4種類と触媒量3種類での強度分析 (多重比較・交互作用なし)
         ・ "weightgain"による,ラットの餌と体重増加の分析 (多重比較・交互作用なし)
         ・ "ToothGrowth"による,サプリメントによるモルモットの歯の成長 (多重比較・交互作用あり)
      (4) 二元配置を分散分析 (対応なしX対応なし・標本数が異る)
         ・ "foster"による,ラット親子の遺伝子型と子供の体重分析 (多重比較・交互作用なし)

    4. 三要因(カテゴリカルデータ)のaovによる分散分析
      (1) 概要 三元配置(多元配置)の実験データを分散分析

      (2) 三元配置を分散分析 (対応なしXなしXなし・標本数は1)
         ・ 触媒3種類,触媒使用量3種類,反応温度3種類での収量分析 (多重比較・交互作用あり)
      (3) 三元配置を分散分析 (対応なしXなしXなし・標本数が同じ)
         ・ LED政党に対する好感度分析 (多重比較・交互作用あり)
         ・ 触媒3種類,触媒使用量3種類,反応温度3種類での収量分析 (交互作用あり)

    5. 分散分析中級編へ・自習教材で練習編 統計処理のスキルを確かなものにするために,教科書・解説書の内容を理解し,結果をRスクリプトで実行確認する.
H. Rとグラフィックス
  1. グラフ作図例
    (1)
    plot()関数を使った散布図の作図体験
    (2) グラフィックス参考実例集・マニュアル -RjpWiki
       ・座標軸の形状 plot  ・箱ひげ図 boxplot  ・散布図 matplot
    (3) R Graphical Manual   -nig.ac.jp
  2. Rコマンダーによるグラフ作図
       ・参照 §B.2.(6) Rコマンダー操作:データセット「iris」のグラフ作成
    (1) インデックスプロット (2) 箱ひげ図 (3) 棒グラフ (4) 折れ線グラフ
    (5) ヒストグラム (6) 円グラフ (7) 幹葉表示 (8) QQ プロット
    (9) 散布図 (10) 平均のプロット (11) 3次元散布図 (12) グラフの保存
  3. lattice パッケージによるグラフ作図

[ 先頭へ戻る ]   [ 総合案内に戻る ]