《資料探勘 概念與技術》 第3章 資料預處理

2021-07-27 05:55:20 字數 440 閱讀 8576

資料要得以應用,必須是高質量的。高質量包括以下6點:

1. 準確性

2. 完整性

3. 一致性

4. 時效性

5. 可信性

6. 可解釋性

資料清理:消除噪音,糾正不一致。

資料整合:不同資料來源合併乙個,資料倉儲。

資料規約:聚集和刪除冗餘,降低資料規模。

資料變換:資料壓縮(對映)較小的區間。

造成資料不準確、不完整、不一致的原因:

eg.

不準確:比如使用者填寫資料故意填錯。

不完整:比如採集器故障,不能上傳資料。

不一致:上傳的資料格式不一致。

不完整:缺少屬性值

噪音:錯誤或者偏離期望的值

填充缺失值、光滑噪音、識別離散群、糾正資料一致性。

最優的方法:回歸、貝葉斯

資料探勘概念與技術 第2章

1 資料屬性 標稱屬性 類別型屬性,不同類別間無法比較順序,如 職業類別,顏色類別等 二元屬性 只有兩個類別,0表示屬性不出現,1表示出現 如,是否抽菸等 對稱的二元屬性 兩種狀態有相同的價值,攜帶相同的權重,如性別的男女屬於對稱的二元屬性 一般 標識性別時男為1,女為0 非對稱的二元屬性 兩種狀態...

《資料探勘概念與技術》書記 3

歡迎來到現實世界!資料預處理技術 這些技術不是互相排斥的,可以一起使用。資料清理可能涉及糾正錯誤資料的變換。資料質量包括準確性 完整性 一致性 時效性 可信性和可解釋性。現實是你希望使用資料探勘技術分析的資料時不完整的 缺少屬性值或某些感興趣的屬性,或僅包含聚集資料 不正確的或含雜訊的 包含錯誤或存...

《資料探勘 概念與技術(第3版)》筆記(一)

內容包括 第一章 引論 四 並不是所有的模式都是有趣的 五 資料探勘演算法的完全性 六 資料探勘演算法的優化 七 使用的技術 八 面向應用的型別 九 資料探勘的主要問題 1.資料清洗 2.資料整合 3.資料選擇 4.資料變換 5.資料探勘 6.模式評估 7.知識表現 1.資料庫資料 2.資料倉儲 3...