3 6 11 資料探勘中的資料預處理

2021-08-28 13:04:33 字數 1160 閱讀 4556

《data mining—concepts and techniques》是經典的資料探勘入門書籍,內容囊括資料探勘的基本概念、資料的預處理、資料的儲存、資料中模式的挖掘、分類、聚類、異常檢測等方面,作者是著名的韓家煒教授。資料的預處理在真實世界資料中是非常關鍵的一步,它既是不同資料探勘應用的共同起點,又很大程度上影響了資料探勘應用的效果。我將翻譯、整理這本書中關於資料預處理的部分,如果有紕漏歡迎指正。

解決上述問題需要在將資料送入演算法之前進行預處理,具體包括data cleaning,data intergationdata reduction,data transformation and data discretization等步驟。下面將對各個部分詳細展開。

資料清洗的主要作用是處理資料的某些紀錄值缺失,平滑資料中的雜訊、發現異常值,改正不一致。

值缺失針對資料中某些記錄的值缺失問題(比如使用者銷售資料中,有些顧客的收入資訊缺失,有些顧客的年齡資訊缺失),可以採用如下的方式:

上述的第3-第6種方法都會引入偏差,因為補充的缺失值跟真實值很可能不同。第六種方法在現實中非常流行,因為它在推斷缺失值時使用的資訊最多,那麼結果理應更準確。不過需要注意的是,有時缺失值也會提供有用的資訊,比如在信用卡申請使用者資料中,沒有駕照號碼很可能是因為沒有汽車,而是否有汽車是評價信用等級很有用的資訊。

雜訊(noise)

雜訊是混在觀測值的錯誤(error)或誤差(variance),具體去噪方式有以下幾種:

其中oijoij是聯合事件(a=aiai,b=bjbj)發生的頻率,eijeij是期望頻率,用如下的公式計算:

eij=count(a=ai)×count(b=bj)neij=count(a=ai)×count(b=bj)n (2)

ra,b=∑ni=1(ai−a¯¯¯¯)(bi−b¯¯¯¯)nδaδb=∑ni=n(aibi)−na¯¯¯¯b¯¯¯¯nδaδbra,b=∑i=1n(ai−a¯)(bi−b¯)nδaδb=∑i=nn(aibi)−na¯b¯nδaδb (3)

當相關係數是正的時候表示屬性a和屬性b正相關,當相關係數是負的時候屬性a和屬性b負相關,注意,相關關係並不等同於因果關係。

資料探勘 資料預處理

1 資料預處理 對於建立資料倉儲和資料探勘都是乙個重要的問題,因為現實世界中的資料多半是不完整的 有噪音的和不一致的。資料預處理包括資料清理 資料整合 資料變換和資料歸約。2 資料清理 可以用於填充遺漏的值,平滑資料,找出局外者並糾正資料的不一致性。3 資料整合 將來自不同資料來源的資料整合成一致的...

資料探勘 資料預處理

1.多維度衡量資料質量 正確性 完整性 一致性 時效性 可信度 可解釋性 2.資料清洗 補全缺失資料 專家補充完整 自動填充 unknown 均值 眾數 根據其他屬性採樣本均值等 平滑雜訊資料 隨機錯誤 技術限制等 裝箱 回歸 人機結合 聚類識別並移除異常資料 識別移除異常資料 利用屬性元資料 如身...

資料探勘預處理

資料預處理的主要任務如下 1 資料清理 填寫空缺值,平滑雜訊資料,識別,刪除孤立點,解決不一致性 2 資料整合 整合多個資料庫,資料立方體,檔案 3 資料變換 規範化 消除冗餘屬性 和聚集 資料彙總 將資料從乙個較大的子空間投影到乙個較小的子空間 4 資料歸約 得到資料集的壓縮表示,量小,但可以得到...