答:簡單來說,標準化是依照特徵矩陣的列處理資料,其通過求z-score的方法,將樣本的特徵值轉換到同一量綱下。
歸一化是依照特徵矩陣的行處理資料,其目的在於樣本向量在點乘運算或其他核函式計算相似性時,擁有統一的標準,也就是說都轉化為「單位向量」。
歸一化:這種方法有個缺陷就是當有新資料加入時,可能導致max和min的變化,需要重新定義。另外,最大值與最小值非常容易受異常點影響,所以這種方法魯棒性較差,只適合傳統精確小資料場景。
標準化:要求原始資料的分布可以近似為高斯分布,否標準化的效果會變得很糟糕。它們可以通過現有樣本進行估計。在已有樣本足夠多的情況下比較穩定,適合現代嘈雜大資料場景。
歸一化的依據非常簡單,不同變數往往量綱不同,歸一化可以消除量綱對最終結果的影響,使不同變數具有可比性。比如兩個人體重差10kg,身高差0.02m,在衡量兩個人的差別時體重的差距會把身高的差距完全掩蓋,歸一化之後就不會有這樣的問題。
標準化的原理比較複雜,它表示的是原始值與均值之間差多少個標準差,是乙個相對值,所以也有去除量綱的功效。同時,它還帶來兩個附加的好處:均值為0,標準差為1。
均值為0有什麼好處呢?它可以使資料以0為中心左右分布,而資料以0為中心左右分布會帶來很多便利。比如在去中心化的資料上做svd分解等價於在原始資料上做pca;機器學習中很多函式如sigmoid、tanh、softmax等都以0為中心左右分布(不一定對稱)。
1、在分類、聚類演算法中,需要使用距離來度量相似性的時候、或者使用pca技術進行降維的時候,第二種方法(z-score standardization)表現更好。
2、在不涉及距離度量、協方差計算、資料不符合正太分布的時候,可以使用第一種方法或其他歸一化方法。比如影象處理中,將rgb影象轉換為灰度影象後將其值限定在[0 255]的範圍。
在涉及到計算點與點之間的距離時,使用歸一化或標準化都會對最後的結果有所提公升,甚至會有質的區別。那在歸一化與標準化之間應該如何選擇呢?,如果把所有維度的變數一視同仁,在最後計算距離中發揮相同的作用應該選擇標準化,如果想保留原始資料中由標準差所反映的潛在權重關係應該選擇歸一化。另外,標準化更適合現代嘈雜大資料場景
歸一化與標準化區別
常用的方法是通過對原始資料進行線性變換把資料對映到 0,1 之間,變換函式為 不同變數往往量綱不同,歸一化可以消除量綱對最終結果的影響,使不同變數具有可比性。在不涉及距離度量 協方差計算 資料不符合正太分布的時候,可以使用歸一化方法。比如影象處理中,將rgb影象轉換為灰度影象後將其值限定在 0 25...
歸一化與標準化
特點 對不同特徵維度的伸縮錶換的目的是使各個特徵維度對目標函式的影響權重是一致的,即使得那些扁平分布的資料伸縮變換成類圓形。這也就改變了原始資料的乙個分布。好處 1 提高迭代求解的收斂速度 2 提高迭代求解的精度 方法 1 min max標準化 也成為離差標準化,對原始資料的的線性變換,結果值對映到...
歸一化與標準化
1 提公升訓練的速度 2 提公升模型的精度 3 深度模型中能夠防止梯度 min max 歸一化 x x x min x max x min 將x 對映到 0,1 之間的乙個數 z score 標準化 均值為0 標準差為1 當有新的樣本加入時,min max 計算量小,z score 需要重新計算均值...