機器學習與統計建模 歸一化和標準化

2021-09-03 03:08:49 字數 1187 閱讀 6120

歸一化(min-max normalization)

特點1、對不同特徵維度進行伸縮變換 

2、改變原始資料的分布。使各個特徵維度對目標函式的影響權重是一致的(即使得那些扁平分布的資料伸縮變換成類圓形) 

3、對目標函式的影響體現在數值上 

4、把有量綱表示式變為無量綱表示式 。

好處1、提高迭代求解的收斂速度 

2、提高迭代求解的精度

缺點1、最大值與最小值非常容易受異常點影響 

2、魯棒性較差,只適合傳統精確小資料場景。

公式

標準化(z-score)

特點對不同特徵維度的伸縮變換的目的是使得不同度量之間的特徵具有可比性。同時不改變原始資料的分布。

好處1、不改變原始資料的分布。保持各個特徵維度對目標函式的影響權重 

2、對目標函式的影響體現在幾何分布上 

3、在已有樣本足夠多的情況下比較穩定,適合現代嘈雜大資料場景。

公式例子根據人的身高和體重**人的健康指數,假設有如下原始樣本資料是四維的 

從上面兩個座標圖可以看出,樣本在資料值上的分布差距是不一樣的,但是其幾何距離是一致的。而標準化就是一種對樣本資料在不同維度上進行乙個伸縮變化(而不改變資料的幾何距離),也就是不改變原始資料的資訊(分布)。這樣的好處就是在進行特徵提取時,忽略掉不同特徵之間的乙個度量,而保留樣本在各個維度上的資訊(分布)。

從採用大單位的身高和體重這兩個特徵來看,如果採用標準化,不改變樣本在這兩個維度上的分布,則左圖還是會保持二維分布的乙個扁平性;而採用歸一化則會在不同維度上對資料進行不同的伸縮變化(歸一區間,會改變資料的原始距離,分布,資訊),使得其呈類圓形。雖然這樣樣本會失去原始的資訊,但這防止了歸一化前直接對原始資料進行梯度下降類似的優化演算法時最終解被數值大的特徵所主導。歸一化之後,各個特徵對目標函式的影響權重是一致的。這樣的好處是在提高迭代求解的精度。

標準化與歸一化 機器學習

歸一化和標準化經常被搞混,程度還比較嚴重,非常干擾大家的理解。為了方便後續的討論,必須先明確二者的定義。如果要把輸入資料轉換到 0,1 的範圍,可以用如下公式進行計算 按以上方式進行歸一化以後,輸入資料轉換到 0,1 的範圍。有時候我們希望將輸入轉換到 1,1 的範圍,可以使用以下的公式 以上兩種方...

機器學習的歸一化和標準化

一般做機器學習應用的時候大部分時間是花費在特徵處理上,其中很關鍵的一步就是對特徵資料進行歸一化,為什麼要歸一化呢?很多同學並未搞清楚,維基百科給出的解釋 1 歸一化後加快了梯度下降求最優解的速度,主要是加快梯度下降法收斂速度。2 歸一化有可能提高精度。下面我簡單擴充套件解釋下這兩點。有兩種實現方法 ...

機器學習中的標準化和歸一化

這個真的是讓人困惑,分別解釋一下,首先說一下方差和均值 e x d x begin mu e x sigma sqrt end e x d x 1.歸一化 為什麼叫歸一化,歸一化顧名思義就是將資料轉換到0 1之間 x x xm inxm ax x min xxma x xm in x minx ma...