沒有高質量的資料,就沒有高質量的資料探勘結果,資料值缺失是資料分析中經常遇到的問題之一。
當缺失比例很小時,可直接對缺失記錄進行捨棄或進行手工處理。
但在實際資料中,往往缺失資料占有相當的比重。這時如果手工處理非常低效,
如果捨棄缺失記錄,則會丟失大量資訊,使不完全觀測資料與完全觀測資料間產生系統差異
,對這樣的資料進行分析,你很可能會得出錯誤的結論。
對缺失值的處理要具體問題具體分析
,為什麼要具體問題具體分析呢?
因為屬性缺失有時並不意味著資料缺失
,缺失本身是包含資訊的,所以需要根據不同應用場景下缺失值可能包含的資訊進行合理填充
。下面通過一些例子來說明如何具體問題具體分析,仁者見仁智者見智,僅供參考:
「年收入」:商品推薦場景下填充平均值,借貸額度場景下填充最小值;
「行為時間點」:填充眾數;
「**」:商品推薦場景下填充最小值,商品匹配場景下填充平均值;
「人體壽命」:保險費用估計場景下填充最大值,人口估計場景下填充平均值;
「駕齡」:
沒有填寫這一項的使用者可能是沒有車,為它填充為0較為合理
;」本科畢業時間」:沒有填寫這一項的使用者可能是沒有上大學,
為它填充正無窮比較合理
;「婚姻狀態」:沒有填寫這一項的使用者可能對自己的隱私比較敏感,應單獨設為乙個分類,如已婚1、未婚0、未填-1。
在對缺失資料進行處理前,
了解資料缺失的機制和形式是十分必要的
。將資料集中
不含缺失值的變數稱為完全變數
,資料集中
含有缺失值的變數稱為不完全變數
。從缺失的分布來將缺失可以分為完全隨機缺失,隨機缺失和完全非隨機缺失
。對於隨機缺失和非隨機缺失,刪除記錄是不合適的,隨機缺失可以通過已知變數對缺失值進行估計;而非隨機缺失還沒有很好的解決辦法。
說明:對於分類問題,可以分析缺失的樣本中,類別之間的比例和整體資料集中,類別的比例
資料缺失在許多研究領域都是乙個複雜的問題。對資料探勘來說,預設值的存在,造成了以下影響:
資料探勘演算法本身更致力於避免資料過分擬合所建的模型,這一特性使得它難以通過自身的演算法去很好地處理不完整資料。因此,預設值需要通過專門的方法進行推導、填充等,以減少資料探勘演算法與實際應用之間的差距。
處理不完整資料集的方法主要有三大類:
刪除元組、資料補齊、不處理
。也就是將存在遺漏資訊屬性值的物件(元組,記錄)刪除,從而得到乙個完備的資訊表
。這種方法簡單易行,
在物件有多個屬性缺失值、被刪除的含缺失值的物件與初始資料集的資料量相比非常小的情況下非常有效,類標號缺失時通常使用該方法。
資料分析中的缺失值處理
沒有高質量的資料,就沒有高質量的資料探勘結果,資料值缺失是資料分析中經常遇到的問題之一。當缺失比例很小時,可直接對缺失記錄進行捨棄或進行手工處理。但在實際資料中,往往缺失資料占有相當的比重。這時如果手工處理非常低效,如果捨棄缺失記錄,則會丟失大量資訊,使不完全觀測資料與完全觀測資料間產生系統差異 對...
資料分析中的缺失值處理
對缺失值的處理要具體問題具體分析 為什麼要具體問題具體分析呢?因為屬性缺失有時並不意味著資料缺失 缺失本身是包含資訊的,所以需要根據不同應用場景下缺失值可能包含的資訊進行合理填充 下面通過一些例子來說明如何具體問題具體分析,仁者見仁智者見智,僅供參考 年收入 商品推薦場景下填充平均值,借貸額度場景下...
python大資料分析 缺失值處理
coding utf 8 import pandas as pd from scipy.interpolate import lagrange as lg 呼叫拉格朗日缺值補充函式 inputfile d code need try.xls outputfile d code need try1.x...