資料探勘的五大流程
1.獲取資料
2.資料預處理
從資料中檢測,糾正,刪除損壞,不準確,不適用的資料,可能的問題有:
資料型別不同,比如有文字,有的是數字,有的含有時間序列,有的質量不行,
有雜訊,有異常,有缺失,有重複,等等。
目的: 讓資料適應模型,匹配模型的需求。
3.特徵工程
將原始資料轉換成更能代表**模型的潛在問題的特徵的過程。可以通過挑選最相關的特徵,提取特徵
以及創造特徵,(通常用降維演算法實現。)
可能面對的問題: 特徵之間有相關性,特徵與標籤無關,特徵太多,太少,或者無法表現出應有的資料現象。
目的:降低計算成本,提公升模型上限。
4.建模,測試模型並**結果.
5.上線,驗證模型效果。![在這裡插入描述](https://img-
資料的無量綱化: 資料標準化,規範化。
方法: 中心化。縮放處理。
資料歸一化:(normalization 或者 min_max_scaling)缺點: 對異常值過於敏感,所以一般選擇所方時,選擇標準化。
資料標準化:(standardization),資料按照均值中心化後,再按照標準差縮放,就會服從均值為0,方差為1的正太分布,這就叫做資料標準化。
資料預處理
現實世界中資料大體上都是不完整,不一致的髒資料,無法直接進行資料探勘,或挖掘結果差強人意。為了提前資料探勘的質量產生了資料預處理技術。資料預處理有多種方法 資料清理,資料整合,資料變換,資料歸約等。這些資料處理技術在資料探勘之前使用,大大提高了資料探勘模式的質量,降低實際挖掘所需要的時間。一 資料清...
資料預處理
常見的資料預處理方法,以下通過sklearn的preprocessing模組來介紹 變換後各維特徵有0均值,單位方差。也叫z score規範化 零均值規範化 計算方式是將特徵值減去均值,除以標準差。sklearn.preprocessing scale x 一般會把train和test集放在一起做標...
資料預處理
用cut函式分箱 有時把數值聚集在一起更有意義。例如,如果我們要為交通狀況 路上的汽車數量 根據時間 分鐘資料 建模。具體的分鐘可能不重要,而時段如 上午 下午 傍晚 夜間 深夜 更有利於 如此建模更直觀,也能避免過度擬合。這裡我們定義乙個簡單的 可復用的函式,輕鬆為任意變數分箱。def binni...