第一種normalization是對於將資料進行預處理時進行的操作,是對於資料集的各個特徵分別進行處理,主要包括min-max normalization、z-score normalization、 log函式轉換和atan函式轉換等。第二種normalization對於每個樣本縮放到單位範數(每個樣本的範數為1),主要有l1-normalization(l1範數)、l2-normalization(l2範數)等。
資料的標準化(normalization)是將資料按比例縮放,使之落入乙個小的特定區間。
去除資料的單位限制,將其轉化為無量綱的純數值,便於不同單位或量級的指標能夠進行比較和加權。其中最典型的就是資料的標準化處理,即將資料統一對映到[0,1]區間上。標準化在0-1之間是統計的概率分布,標準化在某個區間上是統計的座標分布。
不同的標準化方法,對系統的評價結果會產生不同的影響,然而不幸的是,在資料標準化方法的選擇上,還沒有通用的法則可以遵循。
資料標準化處理主要包括資料同趨化處理和無量綱化處理兩個方面。
資料同趨化處理主要解決不同性質資料問題,對不同性質指標直接加總不能正確反映不同作用力的綜合結果,須先考慮改變逆指標資料性質,使所有指針對測評方案的作用力同趨化,再加總才能得出正確結果。
資料無量綱化處理主要解決資料的可比性。經過上述標準化處理,原始資料均轉換為無量綱化指標測評值,即各指標值都處於同乙個數量級別上,可以進行綜合測評分析。
也就說標準化(normalization)的目的是:
把特徵的各個維度標準化到特定的區間
把有量綱表示式變為無量綱表示式
1. 加快基於梯度下降法或隨機梯度下降法模型的收斂速度
如果特徵的各個維度的取值範圍不同,那麼目標函式的等線很可能是一組橢圓,梯度的方向為垂直等高線的方向而走之字形路線,這樣會使迭代很慢。
2. 提公升模型的精度
就會突出數值較高的指標在綜合分析中的作用,相對削弱數值水平較低指標的作用。
標準化的方法:
1. min-max normalization
2. z-score normalization
也叫標準差標準化
3. log函式轉換normalization主要思想是對每個樣本計算其p-範數,然後對該樣本中每個元素除以該範數,這樣處理的結果是使得每個處理後樣本的p-範數(比如l1-norm,l2-norm)等於1。
「p-範數:即向量元素絕對值的p次方和的1/p次冪,2範數就是p範數的特例」
該方法主要應用於文字分類和聚類中。例如,對於兩個tf-idf向量的l2-norm進行點積,就可以得到這兩個向量的余弦相似性。xn
orma
liza
tion
=x−x
minx
max−
xmin
'>xno
rmal
izat
ion=
x−xm
inxm
ax−x
min'>
《normalization(標準化)的原理和實現詳解》
資料標準化 Normalization
資料的標準化 normalization 是將資料按比例縮放,使之落入乙個小的特定區間。在某些比較和評價的指標處理中經常會用到,去除資料的單位限制,將其轉化為無量綱的純數值,便於不同單位或量級的指標能夠進行比較和加權。其中最典型的就是資料的歸一化處理,即將資料統一對映到 0,1 區間上,常見的資料歸...
資料標準化 Normalization
資料的標準化 normalization 是將資料按比例縮放,使之落入乙個小的特定區間。在某些比較和評價的指標處理中經常會用到,去除資料的單位限制,將其轉化為無量綱的純數值,便於不同單位或量級的指標能夠進行比較和加權。其中最典型的就是資料的歸一化處理,即將資料統一對映到 0,1 區間上,常見的資料歸...
normalization問題分析
從得到的另一文字儲存的結果 x 1 1 1 17837.8 120910 2 9072.4 96042.5 3 5.79773 8.93843 4 0.000159379 0.00488674 5 0.113665 0.338039 6 47.6554 885.154 7 5.89921 9.045...