歸一化和標準化

2021-07-25 06:41:47 字數 641 閱讀 4044

主要是讀了這篇文章才深入理解這兩個的區別

歸一化

對原始資料進行線性轉換到 [0,1] 區間,如下:

最小值和最大值特別容易受異常值影響,因此魯棒性不好,比較適合傳統的小資料場景

標準化

最常用的方法是z-score標準化,即將資料轉化成均值為0,標準差為1,處理方法如下:

其中理論解釋

歸一化的依據非常簡單,歸一化可以消除量綱對結果的影響,使不同變數有可比性。

標準化的依據相對複雜,它表示原始值和均值之間差幾個標準差,是乙個相對值,有去除量綱的效果,還帶來了兩個附加好處:均值為0,方差為1.

均值為0可以帶來很多遍歷,比如在去中心化的資料上做svd分解等價於在原始資料上做pca;機器學習中很多函式如sigmoid、tanh、softmax等都以0為中心左右分布(不一定對稱),這點後續需要再詳細琢磨

標準差為1帶來的好處:對於

其中其中,

可見第j個變數對最終整體平均距離的影響是

其中如果想讓每個維度在計算距離時發揮相同的作用,應該選擇標準化,如果想保留原始資料中由標準差所反映的潛在權重關係,應該選擇歸一化;標準化更適合噪音大資料。

標準化 和 歸一化

1 把數變為 0,1 之間的小數 主要是為了資料處理方便提出來的,把資料對映到0 1範圍之內處理,更加便捷快速。2 把有量綱表示式變為無量綱表示式 歸一化是一種簡化計算的方式,即將有量綱的表示式,經過變換,化為無量綱的表示式,成為純量。好處 1 歸一化後加快了梯度下降求最優解的速度 2 歸一化有可能...

標準化和歸一化

歸一化 0 1 normalization min max normalization 把數變為 0,1 之間的小數,特徵資料範圍不同歸一化後方便統一處理 這種方法有乙個缺陷就是當有新資料加入時,可能導致max和min的變化,需要重新定義 z score 標準化 zero mean normaliz...

歸一化和標準化

一,歸一化 處理不同特徵之間資料相差不是太大的問題。特徵1特徵2 特徵3特徵4802 1030404 1540303 1245 以計算80這個位置進行轉換為例,特徵1這一列 x 80 30 80 30 1 x 1 1 0 0 1 故80轉換化為x 1 其它位置同理。如下 from sklearn.p...