特徵縮放(feature scaling
), 通常指特徵的標準化,或者叫z-score
標準化,對於很多機器學習演算法來說是乙個非常重要的預處理過程。標準化後的特徵,具有標準正態分佈的屬性,即零均值、單位標準差。
很多演算法,例如svm, k-近鄰、logistic回歸,要求特徵標準化。再如主成分分析,如果乙個成分,例如人的身高,變異小於另乙個成分,例如人的體重,由於它們各自的單位(meters
vs.kilos
), 如果這兩個特徵沒有縮放,那麼,主成分可能確定最大方差的方向更接近體重軸。其結果是,身高改變1公尺被認為比體重改變1公斤更重要,這個結論顯然是錯誤的,而這種錯誤是由於在做主成分之前沒有對特徵縮放。
我們以uci的wine
資料集為例,該資料集包含的連續特徵,由於測量的屬性各不相同,特徵範圍是混雜的(heterogeneous
). 我們分別對原始資料和縮放後的資料做主成分分析和*****
貝葉斯分類器。下圖的結果說明,在經過標準化之後的資料做主成分分類,**的準確性遠勝過沒有經過標準化的原始資料的分類表現。這個例子說明了特徵縮放,即,資料標準化過程,對主成分分析的重要性。
資料預處理第1講 標準化
資料預處理,是指在使用學習演算法分析資料之前,對原始資料集作適當的變換,使得變換後的資料更適合學習演算法。一般的機器學習演算法要求對資料集做標準化的預處理。在實際處理時,我們經常忽略資料的分布形狀,而只是對資料作中心化變換,即,每個變數的值減去其均值。這樣,中心化之後的資料,變數的均值是0。pyth...
第二講 資料預處理
1 資料集由資料物件構成,資料物件由屬性來描述,屬性的型別由屬性可取的值決定 2 標稱型別,二元屬性 對稱,非對稱 序數屬性,數值屬性 離散 連續屬性 3 資料的統計描述 中心性度量 均值,中值,眾數,中位數 離散性度量 方差,標準差,分位數 注 分位數 五數概括 最小值,q1,中值,q3,最大值 ...
特徵工程與資料預處理
通常而言,特徵選擇是指選擇獲得相應模型和演算法最好效能的特徵集。資料和特徵決定了機器學習的上限,而模型和演算法只是逼近這個上限而已。從這個概念可以看出,特徵工程其實是乙個如何展示和表現資料的問題,在實際工作中需要把資料以一種 良好 的方式展示出來,使得能夠使用各種各樣的機器學習模型來得到更好的效果。...