作為乙個接近三年的r語言使用者,在使用了python,php,以及前端三劍客-html,css,js之後,越來越明白了在做具體的工作的時候,選擇正確的語言並且發揮它最大的優勢是多麼重要。一遍工作一遍學習中,也積累了不少對於r的經驗和工具包的使用心得,在這裡和大家分享一些資源,也鼓勵大家在資料科學領域多使用r這門語言。
1.1 資料視覺化包:
ggplot2: 不用我多說,懂r的都知道這個包
plotly:繪製可互動式圖形,而且和ggplot2有深度整合
leaflet: 繪製可互動式地圖的不二選擇,語法簡單,而且完美支援管道運算子
ggforce:放大資料報,可以放大指定區域影象
ggrepel:ggplot2的注釋補充包,可以通過更加美觀的方式新增注釋
treemapify:繪製樹狀圖的ggplot2補充包
ggridges:ggplot2的脊線圖補充
alluvial,ggalluvial:沖積圖
1.2 機器學習包:
caret:類似於python的sciki-learn包,提供多種演算法的api,同時也有交叉驗證,資料預處理等函式,相當強大
randomforest:最忠實於原文獻的隨機森林演算法包
xgboost:大名鼎鼎的xgboost,kaggle高位利器
arules:關聯演算法
c50:c50決策樹演算法包
rpart:cart決策樹演算法
e1071:svm和***** bayes
glmnet:lasso以及ridge回歸演算法
nnet,neuralnet:神經網路演算法
h2o,mxnet,tensorflow,keras:深度學習框架
(knn,kmeans等演算法貌似有自帶函式)
1.3 資料操作:
dplyr:運算元據礦的神器,誰用誰知道
plyr:list,array,dataframe三者的神奇變化包
data.table:資料io和操作神器
tidyr:處理髒資料
tidytext:分詞以及詞頻提取
stringr:處理字串的神包
jiebar,tm:中文分詞利器,nlp專用
lubridate:時間處理最好的包,沒有之一
broom:將各種統計學模型結果資料框化
tidyverse:rstudio出品的整合包,資料科學一攬子解決方案
magrittr:管道符
1.4 資料讀取
data.table:最高支援100g資料,fread和fwrite快的你不敢想,還支援資料型別判斷
readr:rstudio出品,完美替代原生資料io函式
readxl,openxlsx:讀寫excel檔案
1.5 缺失值處理包:
vim:視覺化缺失情況
hmisc:處理缺失值
mice:利用各種演算法補全缺失值的包
1.6 rmarkdown系列:
knitr:完美將markdown轉化成pdf和html
rmarkdown:markdown的核心包
1.7 資料展示:
kableextra:資料框的**展示,支援bootstrap樣式
dt:js庫datatables和r的完美結合
1.8 其他:
zoo,forcats:時間序列
proc,rocr:繪製roc曲線
wordcloud,wordcloud2:詞云
igraph:網路圖以及pagerank演算法
network3d:結合d3.js
survival:生存分析
dbi:和sql的互動
R語言 缺失值
資料集中往往存在缺失值,在進行資料分析前需要了解資料的缺失值情況。r語言中的一些基本函式可用於查詢缺失資料,另外還有一些第三方包可用於查詢和處理資料缺失。基本的缺失值查詢可以通過is.na 和complete.cases 函式,當存在缺失值na或者nan時is.na 返回true,complete....
R語言處理缺失值
在處理資料過程中,避免不了會產生一些缺失值,如未填寫資料或者編碼錯誤等原因,用na表示缺失值。在r語言中,is.na 函式可以判斷元素是否是缺失值,從而返回邏輯值 true false 所以該函式將會返回和元資料集一樣大小的資料集。在判斷缺失值的過程中,需要注意以下兩點 既然缺失值可能無處不在,那麼...
R語言矩陣 缺失值處理
缺失值處理一般包括三步 1.識別缺失資料 2.檢查導致資料缺失的原因 3.刪除包含缺失值的例項或用合理的數值代替 插補 缺失值。x is.na x 1 true is.nan x 1 false is.infinite x 1 false 函式complete.cases 可用來識別矩陣或資料框中沒...