主要是將資料中缺失的資料補充完整、消除雜訊資料、識別和刪除離群點並解決不一致性。主要達到的目標是:將資料格式標準化、異常資料清除、錯誤糾正、重複資料清除。
分析異常資料:
(1)使用統計值進行判斷,最大值、最小值、平均值等判斷是否超出範圍。(2)使用3原則,異常值和平均值比超出三倍標準差及小概率事件,可看做異常值。
(3)箱線圖,數值超過了箱線圖的上下邊界即為異常值。
異常資料處理方法:
(1)刪除異常資料。
(2)視為缺失值,用缺失值處理方法。
(3)平均值處理方法,前後觀測值的平均值替代,或者整體資料的平均值。(4)不處理,作為正常值看待。
資料缺失的原因很多,主要有幾下幾個
(1)不確定原因佔時無法獲取。
(2)儲存不當丟失的。
(3)採集不當丟失的。丟失對資料探勘有一定的影響,處理缺失值的方法很多,忽略缺失資料、去掉缺失資料屬性、手工填寫缺失資料、預設值代替、均值(中位數、眾數)替代、**值代替等。
經常使用的是插補法代替,插補法細粉如下:
(1)最近鄰補插,附近值代替,或者前後值均值代替。
(2)回歸擬合代替。
雜訊無處不在,處理雜訊的方法一般包括分箱、聚類和分類
分箱法及時按照一定的規律將資料放進一些箱子中,考察每個箱子中的資料,採用合適的方法處理箱子中的資料,分箱方法有
(1)權重分箱法,每個箱子裡的資料量相同。
(2)統一區間法,根據屬性區間平均分,相紙寬度是乙個常量。
(3)自定義區間。分箱後對資料進行平滑處理方法有平均值平滑、邊界值平滑、中值平滑。
聚類法,將資料分為多個簇,在簇以外的孤立點即為雜訊資料。
回歸法,線性或非線性回歸方式平滑資料。
python實現方法見下篇
資料探勘 (二)資料預處理
1.資料質量的三個要素 準確性 完整性 一致性 2.資料預處理的主要任務 資料清理 資料整合 資料歸約 資料變換 資料清理主要 填補缺失的值,光滑雜訊同時識別離群點,並糾正資料的不一致性。通常是乙個兩步的迭代過程,包括偏差檢測和資料變換 注意 在某些情況下,缺失值並不意味著資料有誤。在理想情況下,每...
資料探勘 資料預處理
1 資料預處理 對於建立資料倉儲和資料探勘都是乙個重要的問題,因為現實世界中的資料多半是不完整的 有噪音的和不一致的。資料預處理包括資料清理 資料整合 資料變換和資料歸約。2 資料清理 可以用於填充遺漏的值,平滑資料,找出局外者並糾正資料的不一致性。3 資料整合 將來自不同資料來源的資料整合成一致的...
資料探勘 資料預處理
1.多維度衡量資料質量 正確性 完整性 一致性 時效性 可信度 可解釋性 2.資料清洗 補全缺失資料 專家補充完整 自動填充 unknown 均值 眾數 根據其他屬性採樣本均值等 平滑雜訊資料 隨機錯誤 技術限制等 裝箱 回歸 人機結合 聚類識別並移除異常資料 識別移除異常資料 利用屬性元資料 如身...