一、資料清洗
資料清洗簡單說就是處理缺失值和異常值的判斷,當然要根據實際情況來定義資料清洗的任務。
1.缺失值處理
當我們面對的資料是比較大量的時候,就需要了解資料集中那些變數有缺失值、缺失的數量、屬於那種組合方式等有用資訊。此時可以使用mice包中的md.pattern()函式,該函式可生成乙個以矩陣或者資料框形式展示缺失值模式的**,且該函式只需要傳入需要判斷的資料即可。另外還有使用圖形方法這種更直觀的方法描述資料的缺失,可利用vim包中的aggr()函式實現,形式如下:
aggr(x,delimiter = null,plot = t,...)
x表示乙個向量、矩陣或者資料框,delimiter用於區分插值補量,plot則指明是否畫圖。
識別出資料中的缺失值,接下來對其處理。最常用的方法是將包含缺失值的記錄刪去,使用na.omit()函式
R語言資料框
資料框的建立 通過data.frame函式來建立資料框,該函式包含的主要引數為 data.frame row.names null,check.rows false,check.names true,stringsasfactors default.stringsasfactors 建立乙個資料框 ...
R語言資料框
r語言學習日記 一 2019年3月30日 一 建立資料框 讀入txt csv等格式資料,自動生成資料框,資料編碼為utf 8 movie read.csv 電影資料.csv fileencoding utf 8 stringsasfactors f 檢視movie的資料型別 class movie ...
r語言資料變數分段 R語言之資料彙總
我們在分析資料的時候,除了資料結構上的調整之外,很多時候也需要將資料進行彙總處理,比如最簡單的計算行列均值 方差等,同時,資料彙總的結果也可以幫助進行一些實驗設計和視覺化顯示,下面我們說一下如何使用r進行資料彙總處理。一 簡單的行列彙總 1.可以使用colmean colsums 對列計算均值和求和...