資料清理中,處理缺失值的方法是

2021-08-15 17:19:40 字數 921 閱讀 2299

最近做機器學習的題目的時候,偶爾會蹦出乙個資料探勘的題目,讓我措手不及,看來我現在的學藝不精,需要努力一點。

資料清理中,處理缺失值的方法是?

a 估算
b 整例刪除
c 變數刪除
d 成對刪除
答案為:a b c d

由於調查、編碼和錄入誤差,資料中可能存在一些無效值和缺失值,需要給予適當的處理。常用的處理方法有:估算,整例刪除,變數刪除和成對刪除。

估算(estimation)。最簡單的辦法就是用某個變數的樣本均值、中位數或眾數代替無效值和缺失值。這種辦法簡單,但沒有充分考慮資料中已有的資訊,誤差可能較大。另一種辦法就是根據調查物件對其他問題的答案,通過變數之間的相關分析或邏輯推論進行估計。例如,某一產品的擁有情況可能與家庭收入有關,可以根據調查物件的家庭收入推算擁有這一產品的可能性。

整例刪除(casewise deletion)是剔除含有缺失值的樣本。由於很多問卷都可能存在缺失值,這種做法的結果可能導致有效樣本量大大減少,無法充分利用已經收集到的資料。因此,只適合關鍵變數缺失,或者含有無效值或缺失值的樣本比重很小的情況。

變數刪除(variable deletion)。如果某一變數的無效值和缺失值很多,而且該變數對於所研究的問題不是特別重要,則可以考慮將該變數刪除。這種做法減少了供分析用的變數數目,但沒有改變樣本量。

成對刪除(pairwise deletion)是用乙個特殊碼(通常是9、99、999等)代表無效值和缺失值,同時保留資料集中的全部變數和樣本。但是,在具體計算時只採用有完整答案的樣本,因而不同的分析因涉及的變數不同,其有效樣本量也會有所不同。這是一種保守的處理方法,最大限度地保留了資料集中的可用資訊。

採用不同的處理方法可能對分析結果產生影響,尤其是當缺失值的出現並非隨機且變數之間明顯相關時。因此,在調查中應當盡量避免出現無效值和缺失值,保證資料的完整性。

[1].牛客網.

資料清理中,處理缺失值的方法

由於調查 編碼和錄入誤差,資料中可能存在一些無效值和缺失值,需要給予適當的處理。常用的處理方法有 估算,整例刪除,變數刪除和成對刪除。估算 estimation 最簡單的辦法就是用某個變數的樣本均值 中位數或眾數代替無效值和缺失值。這種辦法簡單,但沒有充分考慮資料中已有的資訊,誤差可能較大。另一種辦...

資料清理中常用的幾種處理缺失值的方法

由於調查 編碼和錄入誤差,資料中可能存在一些無效值和缺失值,需要給予適當的處理。常用的處理方法有 估算,整例刪除,變數刪除和成對刪除。1 估算 estimation 最簡單的辦法就是用某個變數的樣本均值 中位數或眾數代替無效值和缺失值。這種辦法簡單,但沒有充分考慮資料中已有的資訊,誤差可能較大。另一...

資料值缺失處理方法

一 缺失值產生的原因 缺失值的產生的原因多種多樣,主要分為機械原因和人為原因。機械原因是由於機械原因導致的資料收集或儲存的失敗造成的資料缺失,比如資料儲存的失敗,儲存器損壞,機械故障導致某段時間資料未能收集 對於定時資料採集而言 人為原因是由於人的主觀失誤 歷史侷限或有意隱瞞造成的資料缺失,比如,在...