現實資料是」骯髒的」
沒有高質量資料, 就沒有高質量的挖掘結果
資料清理: 填寫空缺的值, 平滑雜訊資料, 識別,刪除孤立點, 解決不一致性
資料整合: 整合多個資料庫, 資料立方體或檔案
資料變換:規範化和聚集
資料規約:得到資料集的壓縮表示, 它小得多,但可以相同或相近的結果
資料離散化: 資料規約的一部分, 通過概念分層和資料的離散化來規約資料,對數字型資料特別重要.
忽略人工填寫
使用全域性變數填寫 (null等)
使用屬性平均值填充空缺值
使用最可能的值填充空缺值 : 使用像beyesian公式或判定樹這樣的基於推斷的方法乙個測量變數中的隨機錯誤或偏差
其中, 重覆記錄, 不完整資料, 不一致資料需要進行清理.
分箱 聚類分析
計算機和人工檢查結合
回歸 平滑: 去除資料中的雜訊
聚集:彙總, 資料立方體的構建
資料概化: 沿概念分層向上彙總
規範化: 將資料從較大的子空間對映到較小的子空間
- 最小最大規範化
- 小數定標規範化
資料規約的時間不應該超過或抵消再貴月後的資料探勘節省的時間.
- 資料倉儲中往往存有海量資料, 在其上進行複雜的資料分析與挖掘需要很長時間
- 資料規約策略:
刪除不相干的屬性或維減少資料量
屬性子集選擇
啟發式演算法
有失真壓縮vs無失真壓縮
字串壓縮
兩種有損資料壓縮的方法:小波變換和主要成分分析
通過選擇替代的, 較小的資料表示形式來減少資料量
有參方法: 使用乙個引數模型估計資料, 最後只要儲存引數即可.
無參方法
離散化
概念分層
通過使用高層的概念(青年,中年,老年)替代具體年齡數值
越概化越高層的資料對人類更有意義.
分箱直方圖
聚類基於熵的離散化
自然劃分分段
資料探勘 資料預處理(2)
統計缺失值 train pd.read csv train.csv null columns train.columns train.isnull any train null columns isnull sum 得到dataframe中,資料型別為object的列 展示一列資料各數值分布情況 使...
學習筆記 資料預處理(資料探勘)
提取碼 m69u 主要內容 資料清洗 資料整合 資料變換 資料規約 資料清洗 物件 無關資料,重複資料,平滑雜訊資料,篩選掉與挖掘主題無關的資料,處理缺失值,異常值等。方法 刪除記錄,資料插補和不處理。常見的插補法 拉格朗日插值法 牛頓插值法 用拉格朗日插值法對缺失值進行插補的python程式。資料...
資料探勘學習筆記 資料預處理
目錄 資料預處理的任務 一 資料規範化 最小 最 min max normalization 零均值規範化 z score 二 資料離散化 無監督離散化方法 有監督離散化方法 三 資料清洗 處理資料的缺失 噪音資料的處理 四 特徵提取和特徵選擇 特徵提取 特徵選擇 q 為什麼要進行資料預處理?a 原...