資料探勘 (二)資料預處理

2022-07-04 20:54:10 字數 659 閱讀 2214

1. 資料質量的三個要素:準確性、完整性、一致性

2. 資料預處理的主要任務:

資料清理、資料整合、資料歸約、資料變換

資料清理主要:填補缺失的值,光滑雜訊同時識別離群點,並糾正資料的不一致性。

通常是乙個兩步的迭代過程,包括偏差檢測和資料變換

注意:在某些情況下,缺失值並不意味著資料有誤。在理想情況下,每個屬性應當有乙個或多個關於控制條件的規則。這些規則可以說明是否允許空值,並且/或者說明這樣的空值應當如何處理或轉換。

資料整合將來自多個資料來源的資料整合成一致的資料儲存。語義異種性的解決、元資料、相關性分析、元組重複檢測、資料衝突檢測等有助於資料的順利整合。

將資料歸約表示,比起原資料集小得多,但是保證原始資料的完整性。

資料探勘 資料預處理

1 資料預處理 對於建立資料倉儲和資料探勘都是乙個重要的問題,因為現實世界中的資料多半是不完整的 有噪音的和不一致的。資料預處理包括資料清理 資料整合 資料變換和資料歸約。2 資料清理 可以用於填充遺漏的值,平滑資料,找出局外者並糾正資料的不一致性。3 資料整合 將來自不同資料來源的資料整合成一致的...

資料探勘 資料預處理

1.多維度衡量資料質量 正確性 完整性 一致性 時效性 可信度 可解釋性 2.資料清洗 補全缺失資料 專家補充完整 自動填充 unknown 均值 眾數 根據其他屬性採樣本均值等 平滑雜訊資料 隨機錯誤 技術限制等 裝箱 回歸 人機結合 聚類識別並移除異常資料 識別移除異常資料 利用屬性元資料 如身...

資料探勘預處理

資料預處理的主要任務如下 1 資料清理 填寫空缺值,平滑雜訊資料,識別,刪除孤立點,解決不一致性 2 資料整合 整合多個資料庫,資料立方體,檔案 3 資料變換 規範化 消除冗餘屬性 和聚集 資料彙總 將資料從乙個較大的子空間投影到乙個較小的子空間 4 資料歸約 得到資料集的壓縮表示,量小,但可以得到...