(1)資料預處理
對於建立資料倉儲和資料探勘都是乙個重要的問題,因為現實世界中的資料多半是不完整的、有噪音的和不一致的。資料預處理包括資料清理、資料整合、資料變換和資料歸約。
(2)資料清理
可以用於填充遺漏的值,平滑資料,找出局外者並糾正資料的不一致性。
(3)資料整合
將來自不同資料來源的資料整合成一致的資料儲存。元資料、相關分析、資料衝突檢測和語義異種性的解決都有助於資料整合。
(4)資料變換
將資料變換成適於挖掘的形式。例如,屬性資料可以規範化,使得它們可以落入小區間,如0.0 到1.0。
(5)資料歸約技術
如資料方聚集、維歸約、資料壓縮、數值歸約和離散化都可以用來得到資料的歸約表示,而使得資訊內容的損失最小。
(6)數值資料的概念分層
數值資料的概念分層自動產生可能涉及諸如分箱、直方圖分析、聚類分析、基於熵的離散化和根據自然劃分分段。對於分類資料,概念分層可以根據定義分層的屬性的不同值個數自動產生。
資料探勘 資料預處理
1.多維度衡量資料質量 正確性 完整性 一致性 時效性 可信度 可解釋性 2.資料清洗 補全缺失資料 專家補充完整 自動填充 unknown 均值 眾數 根據其他屬性採樣本均值等 平滑雜訊資料 隨機錯誤 技術限制等 裝箱 回歸 人機結合 聚類識別並移除異常資料 識別移除異常資料 利用屬性元資料 如身...
資料探勘預處理
資料預處理的主要任務如下 1 資料清理 填寫空缺值,平滑雜訊資料,識別,刪除孤立點,解決不一致性 2 資料整合 整合多個資料庫,資料立方體,檔案 3 資料變換 規範化 消除冗餘屬性 和聚集 資料彙總 將資料從乙個較大的子空間投影到乙個較小的子空間 4 資料歸約 得到資料集的壓縮表示,量小,但可以得到...
資料探勘預處理
資料預處理的主要任務如下 1 資料清理 填寫空缺值,平滑雜訊資料,識別,刪除孤立點,解決不一致性 2 資料整合 整合多個資料庫,資料立方體,檔案 3 資料變換 規範化 消除冗餘屬性 和聚集 資料彙總 將資料從乙個較大的子空間投影到乙個較小的子空間 4 資料歸約 得到資料集的壓縮表示,量小,但可以得到...