不管是做資料分析、機器學習、深度學習等。我們拿到資料後,第一步是做資料預處理。
name
weight
agegender
alice
13318
fbob
16025
mcharlie
15236
mdiana
12042f1、
資料特徵像age的有大小順序的稱為ordinal features [0 1 2 3 4]
像gender的沒有大小順序,只代表類別的稱為 categorical feature 一般用one-hot處理 [0 0 0 1]
2、對於有些特徵大小相差很大,單位不同一的,都要進行處理。下面有兩種比較常用的方法。
min-max normalization:
x`=(x-xmin)/(xmax-xmin)
當知道特徵最小最大值時,比如灰度影象0-255
standardization:
xi` =(xi-u)/σ
資料預處理
現實世界中資料大體上都是不完整,不一致的髒資料,無法直接進行資料探勘,或挖掘結果差強人意。為了提前資料探勘的質量產生了資料預處理技術。資料預處理有多種方法 資料清理,資料整合,資料變換,資料歸約等。這些資料處理技術在資料探勘之前使用,大大提高了資料探勘模式的質量,降低實際挖掘所需要的時間。一 資料清...
資料預處理
常見的資料預處理方法,以下通過sklearn的preprocessing模組來介紹 變換後各維特徵有0均值,單位方差。也叫z score規範化 零均值規範化 計算方式是將特徵值減去均值,除以標準差。sklearn.preprocessing scale x 一般會把train和test集放在一起做標...
資料預處理
用cut函式分箱 有時把數值聚集在一起更有意義。例如,如果我們要為交通狀況 路上的汽車數量 根據時間 分鐘資料 建模。具體的分鐘可能不重要,而時段如 上午 下午 傍晚 夜間 深夜 更有利於 如此建模更直觀,也能避免過度擬合。這裡我們定義乙個簡單的 可復用的函式,輕鬆為任意變數分箱。def binni...