由於調查、編碼和錄入誤差,資料中可能存在一些無效值和缺失值,需要給予適當的處理。常用的處理方法有:估算,整例刪除,變數刪除和成對刪除。
(1)估算(estimation)。最簡單的辦法就是用某個變數的樣本均值、中位數或眾數代替無效值和缺失值。這種辦法簡單,但沒有充分考慮資料中已有的資訊,誤差可能較大。另一種辦法就是根據調查物件對其他問題的答案,通過變數之間的相關分析或邏輯推論進行估計。例如,某一產品的擁有情況可能與家庭收入有關,可以根據調查物件的家庭收入推算擁有這一產品的可能性。
(2)整例刪除(casewise deletion)是剔除含有缺失值的樣本。由於很多問卷都可能存在缺失值,這種做法的結果可能導致有效樣本量大大減少,無法充分利用已經收集到的資料。因此,只適合關鍵變數缺失,或者含有無效值或缺失值的樣本比重很小的情況。
(3)變數刪除(variable deletion)。如果某一變數的無效值和缺失值很多,而且該變數對於所研究的問題不是特別重要,則可以考慮將該變數刪除。這種做法減少了供分析用的變數數目,但沒有改變樣本量。
(4)成對刪除(pairwise deletion)是用乙個特殊碼(通常是9、99、999等)代表無效值和缺失值,同時保留資料集中的全部變數和樣本。但是,在具體計算時只採用有完整答案的樣本,因而不同的分析因涉及的變數不同,其有效樣本量也會有所不同。這是一種保守的處理方法,最大限度地保留了資料集中的可用資訊。
採用不同的處理方法可能對分析結果產生影響,尤其是當缺失值的出現並非隨機且變數之間明顯相關時。因此,在調查中應當盡量避免出現無效值和缺失值,保證資料的完整性。
資料清理中,處理缺失值的方法
由於調查 編碼和錄入誤差,資料中可能存在一些無效值和缺失值,需要給予適當的處理。常用的處理方法有 估算,整例刪除,變數刪除和成對刪除。估算 estimation 最簡單的辦法就是用某個變數的樣本均值 中位數或眾數代替無效值和缺失值。這種辦法簡單,但沒有充分考慮資料中已有的資訊,誤差可能較大。另一種辦...
資料清理中,處理缺失值的方法是
最近做機器學習的題目的時候,偶爾會蹦出乙個資料探勘的題目,讓我措手不及,看來我現在的學藝不精,需要努力一點。資料清理中,處理缺失值的方法是?a 估算b 整例刪除c 變數刪除d 成對刪除答案為 a b c d 由於調查 編碼和錄入誤差,資料中可能存在一些無效值和缺失值,需要給予適當的處理。常用的處理方...
資料缺失值處理
步驟 1.識別缺失值 2.分析缺失的原因 3.檢視缺失值情況 4.處理缺失值 識別判斷缺失值 is.na 識別矩陣或資料框中的完整觀測 complete.cases any is.na data 檢查是否存在缺失值 head is.na data col1 5 檢視資料data中col1列前5個資料...