歸一化(0-1 normalization/ min-max normalization)
把數變為(0,1)之間的小數,特徵資料範圍不同歸一化後方便統一處理
這種方法有乙個缺陷就是當有新資料加入時,可能導致max和min的變化,需要重新定義
z-score 標準化(zero-mean normalization)
經過處理的資料符合標準正態分佈,z-score標準化方法適用於屬性a的最大值和最小值未知的情況,或有超出取值範圍的離群資料的情況。
該種標準化方式要求原始資料的分布可以近似為高斯分布,否則效果會變得很糟糕。
在不涉及距離度量、協方差計算、資料不符合正太分布的時候,可以使用歸一化方法。比如影象處理中,將rgb影象轉換為灰度影象後將其值限定在[0 255]的範圍。因為其協方差產生了倍數值的縮放,因此這種方式無法消除量綱對方差、協方差的影響,對pca分析影響巨大;同時,由於量綱的存在,使用不同的量綱、距離的計算結果會不同。而在第二種歸一化方式中,新的資料由於對方差進行了歸一化,這時候每個維度的量綱其實已經等價了,每個維度都服從均值為0、方差1的正態分佈,在計算距離的時候,每個維度都是去量綱化的,避免了不同量綱的選取對距離計算產生的巨大影響。
詳情可以參考:link
歸一化和標準化
主要是讀了這篇文章才深入理解這兩個的區別 歸一化 對原始資料進行線性轉換到 0,1 區間,如下 最小值和最大值特別容易受異常值影響,因此魯棒性不好,比較適合傳統的小資料場景 標準化 最常用的方法是z score標準化,即將資料轉化成均值為0,標準差為1,處理方法如下 其中理論解釋 歸一化的依據非常簡...
標準化 和 歸一化
1 把數變為 0,1 之間的小數 主要是為了資料處理方便提出來的,把資料對映到0 1範圍之內處理,更加便捷快速。2 把有量綱表示式變為無量綱表示式 歸一化是一種簡化計算的方式,即將有量綱的表示式,經過變換,化為無量綱的表示式,成為純量。好處 1 歸一化後加快了梯度下降求最優解的速度 2 歸一化有可能...
歸一化和標準化
一,歸一化 處理不同特徵之間資料相差不是太大的問題。特徵1特徵2 特徵3特徵4802 1030404 1540303 1245 以計算80這個位置進行轉換為例,特徵1這一列 x 80 30 80 30 1 x 1 1 0 0 1 故80轉換化為x 1 其它位置同理。如下 from sklearn.p...