語言rcorr缺失值 R語言工具包彙總

2021-10-14 22:25:06 字數 2485 閱讀 7507

作為乙個接近三年的r語言使用者,在使用了python,php,以及前端三劍客-html,css,js之後,越來越明白了在做具體的工作的時候,選擇正確的語言並且發揮它最大的優勢是多麼重要。一遍工作一遍學習中,也積累了不少對於r的經驗和工具包的使用心得,在這裡和大家分享一些資源,也鼓勵大家在資料科學領域多使用r這門語言。

1.1 資料視覺化包:

ggplot2: 不用我多說,懂r的都知道這個包

plotly:繪製可互動式圖形,而且和ggplot2有深度整合

leaflet: 繪製可互動式地圖的不二選擇,語法簡單,而且完美支援管道運算子

ggforce:放大資料報,可以放大指定區域影象

ggrepel:ggplot2的注釋補充包,可以通過更加美觀的方式新增注釋

treemapify:繪製樹狀圖的ggplot2補充包

ggridges:ggplot2的脊線圖補充

alluvialggalluvial:沖積圖

1.2 機器學習包:

caret:類似於python的sciki-learn包,提供多種演算法的api,同時也有交叉驗證,資料預處理等函式,相當強大

randomforest:最忠實於原文獻的隨機森林演算法包

xgboost:大名鼎鼎的xgboost,kaggle高位利器

arules:關聯演算法

c50:c50決策樹演算法包

rpart:cart決策樹演算法

e1071:svm和***** bayes

glmnet:lasso以及ridge回歸演算法

nnet,neuralnet:神經網路演算法

h2o,mxnet,tensorflow,keras:深度學習框架

(knn,kmeans等演算法貌似有自帶函式)

1.3 資料操作:

dplyr:運算元據礦的神器,誰用誰知道

plyr:list,array,dataframe三者的神奇變化包

data.table:資料io和操作神器

tidyr:處理髒資料

tidytext:分詞以及詞頻提取

stringr:處理字串的神包

jiebar,tm:中文分詞利器,nlp專用

lubridate:時間處理最好的包,沒有之一

broom:將各種統計學模型結果資料框化

tidyverse:rstudio出品的整合包,資料科學一攬子解決方案

magrittr:管道符

1.4 資料讀取

data.table:最高支援100g資料,fread和fwrite快的你不敢想,還支援資料型別判斷

readr:rstudio出品,完美替代原生資料io函式

readxl,openxlsx:讀寫excel檔案

1.5 缺失值處理包:

vim:視覺化缺失情況

hmisc:處理缺失值

mice:利用各種演算法補全缺失值的包

1.6 rmarkdown系列:

knitr:完美將markdown轉化成pdf和html

rmarkdown:markdown的核心包

1.7 資料展示:

kableextra:資料框的**展示,支援bootstrap樣式

dt:js庫datatables和r的完美結合

1.8 其他:

zoo,forcats:時間序列

proc,rocr:繪製roc曲線

wordcloud,wordcloud2:詞云

igraph:網路圖以及pagerank演算法

network3d:結合d3.js

survival:生存分析

dbi:和sql的互動

R語言 缺失值

資料集中往往存在缺失值,在進行資料分析前需要了解資料的缺失值情況。r語言中的一些基本函式可用於查詢缺失資料,另外還有一些第三方包可用於查詢和處理資料缺失。基本的缺失值查詢可以通過is.na 和complete.cases 函式,當存在缺失值na或者nan時is.na 返回true,complete....

R語言處理缺失值

在處理資料過程中,避免不了會產生一些缺失值,如未填寫資料或者編碼錯誤等原因,用na表示缺失值。在r語言中,is.na 函式可以判斷元素是否是缺失值,從而返回邏輯值 true false 所以該函式將會返回和元資料集一樣大小的資料集。在判斷缺失值的過程中,需要注意以下兩點 既然缺失值可能無處不在,那麼...

R語言矩陣 缺失值處理

缺失值處理一般包括三步 1.識別缺失資料 2.檢查導致資料缺失的原因 3.刪除包含缺失值的例項或用合理的數值代替 插補 缺失值。x is.na x 1 true is.nan x 1 false is.infinite x 1 false 函式complete.cases 可用來識別矩陣或資料框中沒...