資料探勘 資料預處理

2021-09-11 08:41:52 字數 395 閱讀 9280

1.多維度衡量資料質量

正確性、完整性、一致性、時效性、可信度、可解釋性

2. 資料清洗

補全缺失資料:專家補充完整、自動填充(unknown、均值、眾數、根據其他屬性採樣本均值等

平滑雜訊資料(隨機錯誤、技術限制等):裝箱、回歸、人機結合、聚類識別並移除異常資料

識別移除異常資料:利用屬性元資料(如身份證號碼的限制等)

解決資料不一致性、預設值

3. 資料整合

合併多個/種資料集

檢測並解決資料衝突

4. 資料簡化

降維:小波變換、pca、特徵子集抽取、特徵建立等

減少資料量:直方圖、聚類、取樣、資料方塊、回歸分析(將資料轉換成模型引數)等

5. 資料轉換

歸一化、離散化

資料探勘 資料預處理

1 資料預處理 對於建立資料倉儲和資料探勘都是乙個重要的問題,因為現實世界中的資料多半是不完整的 有噪音的和不一致的。資料預處理包括資料清理 資料整合 資料變換和資料歸約。2 資料清理 可以用於填充遺漏的值,平滑資料,找出局外者並糾正資料的不一致性。3 資料整合 將來自不同資料來源的資料整合成一致的...

資料探勘預處理

資料預處理的主要任務如下 1 資料清理 填寫空缺值,平滑雜訊資料,識別,刪除孤立點,解決不一致性 2 資料整合 整合多個資料庫,資料立方體,檔案 3 資料變換 規範化 消除冗餘屬性 和聚集 資料彙總 將資料從乙個較大的子空間投影到乙個較小的子空間 4 資料歸約 得到資料集的壓縮表示,量小,但可以得到...

資料探勘預處理

資料預處理的主要任務如下 1 資料清理 填寫空缺值,平滑雜訊資料,識別,刪除孤立點,解決不一致性 2 資料整合 整合多個資料庫,資料立方體,檔案 3 資料變換 規範化 消除冗餘屬性 和聚集 資料彙總 將資料從乙個較大的子空間投影到乙個較小的子空間 4 資料歸約 得到資料集的壓縮表示,量小,但可以得到...