分組統計
> score
id score1 score2 gender
1 101 11.35321 0.9 male
2 102 12.58654 0.6 male
3 103 19.79380 0.9 female
4 104 12.01352 0.4 female
5 105 11.97081 0.4 female
6 106 17.37480 0.7 female
7 107 14.24884 0.3 female
8 108 18.47972 0.8 male
9 109 18.74792 0.8 male
10 110 18.90146 0.7 male
其中x是待摺疊的資料物件,by是乙個變數名組成的列表,這些變數將被去掉以形成新的觀測,而fun則是用來計算描述性統計量的標量函式,它將被用來計算新觀測中的值。
> aggregate(score[,c(2,3)],list(score[,4]),mean)
group.1 score1 score2
1 female 15.08035 0.54
2 male 16.01377 0.76
score[,c(2,3)] 表示對score1和score2列進行分組統計
list(score[,4])表示根據score第4列,也就是性別列進行分組統計。
mean表示統計平均值。
也可以寫作下面的形式:
> aggregate(score[,c(2,3)],list(score$gender),mean)
group.1 score1 score2
1 female 15.08035 0.54
2 male 16.01377 0.76
library(dplyr)
group_by(data, ***) %>% summarize_each(funs(mean), var1, var2, var3...)
使用R進行分組統計
分組統計資料集是很常見的需求,r中也有相應的包支援資料集的分組統計。自己嘗試了寫了段r 來完成分組統計資料集,支援公式,感覺用起來還算方便。分享在文章最後。使用方式 step 1 source aggregatesummary.r step 2 pastecs summary mpg hp wt a...
R語言常用統計功能
方差分析 線性回歸lm 主成分分析 t.test x,y null,alternative c two.sided less greater mu 0,paired false,var.equal false,conf.level 0.95 其中x,y是由資料構成的向量,如果只提供x,則作單個正態總...
R語言描述性統計
在做資料分析時,一般先會對資料進行描述性統計分析,以便於描述該資料的各種特徵及其所代表的總體的特徵。描述性統計分析包括對資料的集中趨勢 離散程度以及分布進行分析。集中趨勢統計量 均值 mean 中位數 median 眾數 mode 百分位數 離散趨勢統計量 標準差 sd 方差 var 極差 rang...