現實情況中,你的資料可能是不完整的(缺少屬性值或某些感興趣的屬性或僅包含聚類資料)、含雜訊的(包含錯誤或存在偏離期望的離群值)、並且是不一致的。
資料清理:填寫缺失的值、光滑雜訊資料、識別或刪除離群點並解決不一致性
資料整合:當資料來自多個資料來源時,而同乙個屬性在不同資料來源不同,合成時存在冗餘
資料規約:資料集的簡化
1 度量資料的中心趨勢
均值、中位數、眾數、中列數(最大值和最小值的平均值)
2 度量資料的離散程度
四分位數、四分位數極差、方差
五數概況:最小值、第乙個四分位數、中位數、第三個四分位數、最大值
3 圖形顯示
直方圖、分位數圖、q-q圖
資料探勘之漫談資料預處理
接觸資料探勘以及相關的演算法也有快兩年的時間了。整理下自己使用過的預處理方法,以及一些必備知識。總體來說,預處理包括大概四個部分 清理,整合,歸約和變形。預處理中使用的技術不如 演算法 那麼 高階 但是元資料本身質量的好壞直接決定著模型的上界。資料編碼格式 unicode utf 8 gbk是我常遇...
資料探勘 資料預處理
1 資料預處理 對於建立資料倉儲和資料探勘都是乙個重要的問題,因為現實世界中的資料多半是不完整的 有噪音的和不一致的。資料預處理包括資料清理 資料整合 資料變換和資料歸約。2 資料清理 可以用於填充遺漏的值,平滑資料,找出局外者並糾正資料的不一致性。3 資料整合 將來自不同資料來源的資料整合成一致的...
資料探勘 資料預處理
1.多維度衡量資料質量 正確性 完整性 一致性 時效性 可信度 可解釋性 2.資料清洗 補全缺失資料 專家補充完整 自動填充 unknown 均值 眾數 根據其他屬性採樣本均值等 平滑雜訊資料 隨機錯誤 技術限制等 裝箱 回歸 人機結合 聚類識別並移除異常資料 識別移除異常資料 利用屬性元資料 如身...