資料預處理:對原始資料進行必要的清理、整合、轉換、離散和規約等一系列的處理工作。
原始資料的特徵:
(1)不完整性:資料屬性的丟失、不確定的情況、缺失必需的資料。
(2)含雜訊:資料具有不正確屬性值:包含錯誤或存在偏離期望的離群值。
產生原因:如收集資料的裝置故障,人或計算機的錯誤可能在資料的輸入時出現,資料傳輸中可能出現錯誤。
(3)雜亂性:原始資料是從各個實際應用系統中獲取的。由於各應用系統資料缺乏統一的標準的定義。
1.資料清理:填補遺漏的數值、平滑有雜訊資料、識別或去除異常值以及解決不一致問題。
2.資料整合:將來自多個資料來源的資料合併在一起,形成一致的資料儲存,如將不同資料庫中的資料整合到乙個資料倉儲中儲存。
3:資料變換:將資料轉化成適合挖掘的形式,如將屬性資料按比例縮放,使之落入乙個比較小的特定區間。(方法:平滑處理、聚集處理、資料泛化處理、規格化、屬性構造)
4 資料規約:在不影響挖掘結果的前提下,通過資料聚集、刪除冗餘特性的辦法壓縮資料,提高資料探勘的質量,降低時間複雜度。
資料預處理
現實世界中資料大體上都是不完整,不一致的髒資料,無法直接進行資料探勘,或挖掘結果差強人意。為了提前資料探勘的質量產生了資料預處理技術。資料預處理有多種方法 資料清理,資料整合,資料變換,資料歸約等。這些資料處理技術在資料探勘之前使用,大大提高了資料探勘模式的質量,降低實際挖掘所需要的時間。一 資料清...
資料預處理
常見的資料預處理方法,以下通過sklearn的preprocessing模組來介紹 變換後各維特徵有0均值,單位方差。也叫z score規範化 零均值規範化 計算方式是將特徵值減去均值,除以標準差。sklearn.preprocessing scale x 一般會把train和test集放在一起做標...
資料預處理
用cut函式分箱 有時把數值聚集在一起更有意義。例如,如果我們要為交通狀況 路上的汽車數量 根據時間 分鐘資料 建模。具體的分鐘可能不重要,而時段如 上午 下午 傍晚 夜間 深夜 更有利於 如此建模更直觀,也能避免過度擬合。這裡我們定義乙個簡單的 可復用的函式,輕鬆為任意變數分箱。def binni...