一、缺失值產生的原因
缺失值的產生的原因多種多樣,主要分為機械原因和人為原因。機械原因是由於機械原因導致的資料收集或儲存的失敗造成的資料缺失,比如資料儲存的失敗,儲存器損壞,機械故障導致某段時間資料未能收集(對於定時資料採集而言)。人為原因是由於人的主觀失誤、歷史侷限或有意隱瞞造成的資料缺失,比如,在市場調查中被訪人拒絕透露相關問題的答案,或者回答的問題是無效的,資料錄入人員失誤漏錄了資料。
二、缺失值的型別
缺失值從缺失的分布來講可以分為完全隨機缺失,隨機缺失和完全非隨機缺失。完全隨機缺失(missing completely at random,mcar)指的是資料的缺失是隨機的,資料的缺失不依賴於任何不完全變數或完全變數。隨機缺失(missing at random,mar)指的是資料的缺失不是完全隨機的,即該類資料的缺失依賴於其他完全變數。完全非隨機缺失(missing not at random,mnar)指的是資料的缺失依賴於不完全變數自身。
從缺失值的所屬屬性上講,如果所有的缺失值都是同一屬性,那麼這種缺失成為單值缺失,如果缺失值屬於不同的屬性,稱為任意缺失。另外對於時間序列類的資料,可能存在隨著時間的缺失,這種缺失稱為單調缺失。
三、缺失值的處理方法
處理缺失值主要有以下幾種方法:
1.當某個變數或者某個樣本中缺失值佔比過大時,那麼我們可以認為這一變數或者樣本沒有意義,可以直接刪除。
2.用平均值、中值、分位數、眾數、隨機值等替代。效果一般,因為等於人為增加了雜訊。
3.用其他變數做**模型來算出缺失變數。效果比方法2略好。有乙個根本缺陷,如果其他變數和缺失變數無關,則**的結果無意義。如果**結果相當準確,則又說明這個變數是沒必要加入建模的。一般情況下,介於兩者之間。 4.
而且只有在樣本量非常大的時候效果才好,否則會因為過於稀疏,效果很差。
缺失值處理方法
缺失值處理方法綜述 主要有簡單刪除法和權重法。簡單刪除法是對缺失值進行處理的最原始方法。1 簡單刪除法 此方法將存在缺失值的資料條目 物件,元組,記錄 進行刪除。這種方法簡單易行,在物件有多個屬性缺失值 被刪除的含缺失值的物件與資訊表中的資料量相比非常小的情況下是非常有效的。然而,這種方法卻有很大的...
缺失值處理 缺失值填充方法總結
我們在進行模型訓練時,不可避免的會遇到某些特徵出現空值的情況,下面整理了幾種填充空值的方法 對於特徵值缺失的一種常見的方法就是可以用固定值來填充,例如0,9999,9999,例如下面對灰度分這個特徵缺失值全部填充為 99 data 灰度分 data 灰度分 fillna 99 對於數值型的特徵,其缺...
資料值缺失處理方法
一 缺失值產生的原因 缺失值的產生的原因多種多樣,主要分為機械原因和人為原因。機械原因是由於機械原因導致的資料收集或儲存的失敗造成的資料缺失,比如資料儲存的失敗,儲存器損壞,機械故障導致某段時間資料未能收集 對於定時資料採集而言 人為原因是由於人的主觀失誤 歷史侷限或有意隱瞞造成的資料缺失,比如,在...