我們經常將歸一化和標準化弄混淆,下面簡單描述一下他們之間的差異
歸一化的目標是找到某種對映關係,將原資料對映到[a,
b]">[a,b]區間上。一般a,b
">a,b會取[−1
,1],
[0,1
]">[−1,1],[0,1]這些組合[a
,b]">一般有兩種應用場景:
常用min-max normalization:
用大數定理將資料轉化為乙個標準正態分佈,標準化公式為:
我們可以這樣簡單地解釋:歸一化的縮放是「拍扁」統一到區間(僅由極值決定),而標準化的縮放是更加「彈性」和「動態」的,和整體樣本的分布有很大的關係。
值得注意:歸一化:縮放僅僅跟最大、最小值的差別有關。標準化:縮放和每個點都有關係,通過方差(variance)體現出來。與歸一化對比,標準化中所有資料點都有貢獻(通過均值和標準差造成影響)。
如下圖所示,藍色的圈圈圖代表的是兩個特徵的等高線。其中左圖兩個特徵x1和x2的區間相差非常大,x1區間是[0,2000],x2區間是[1,5],其所形成的等高線非常尖。當使用梯度下降法尋求最優解時,很有可能走「之字型」路線(垂直等高線走),從而導致需要迭代很多次才能收斂;
而右圖對兩個原始特徵進行了歸一化,其對應的等高線顯得很圓,在梯度下降進行求解時能較快的收斂。
因此如果機器學習模型使用梯度下降法求最優解時,歸一化往往非常有必要,否則很難收斂甚至不能收斂。
正則化就是對最小化經驗誤差函式上加約束,這樣的約束可以解釋為先驗知識(正則化引數等價於對引數引入先驗分布)。約束有引導作用,在優化誤差函式的時候傾向於選擇滿足約束的梯度減少的方向,使最終的解傾向於符合先驗知識(如一般的l-norm先驗,表示原問題更可能是比較簡單的,這樣的優化傾向於產生引數值量級小的解,一般對應於稀疏引數的平滑解)
正則化是針對過擬合而提出的,以為在求解模型最優的是一般優化最小的經驗風險,現在在該經驗風險上加入模型複雜度這一項(正則化項是模型引數向量的範數),並使用乙個rate比率來權衡模型複雜度與以往經驗風險的權重,如果模型複雜度越高,結構化的經驗風險會越大,現在的目標就變為了結構經驗風險的最優化,可以防止模型訓練過度複雜,有效的降低過擬合的風險。
範數簡單可以理解為用來表徵向量空間中的距離,而距離的定義很抽象,只要滿足非負、自反、三角不等式就可以稱之為距離。
lp範數不是乙個範數,而是一組範數,其定義如下:
根據lp範數的定義我們可以很輕鬆的得到l1範數的數學形式:
通過上式可以看到,l1範數就是向量各元素的絕對值之和,也被稱為是"稀疏規則運算元"(lasso regularization)。那麼問題來了,為什麼我們希望稀疏化?稀疏化有很多好處,最直接的兩個:
l2範數是最熟悉的,它就是歐幾里得距離,公式如下:
l2範數有很多名稱,有人把它的回歸叫「嶺回歸」(ridge regression),也有人叫它「權值衰減」(weight decay)。以l2範數作為正則項可以得到稠密解,即每個特徵對應的引數w
">ww都很小,接近於0但是不為0;此外,l2範數作為正則化項,可以防止模型為了迎合訓練集而過於複雜造成過擬合的情況,從而提高模型的泛化能力。
引入prml乙個經典的圖來說明下l1和l2範數的區別,如下圖所示:
如上圖所示,藍色的圓圈表示問題可能的解範圍,橘色的表示正則項可能的解範圍。而整個目標函式(原問題+正則項)有解當且僅當兩個解範圍相切。從上圖可以很容易地看出,由於l2範數解範圍是圓,所以相切的點有很大可能不在座標軸上,而由於l1範數是菱形(頂點是凸出來的),其相切的點更可能在座標軸上,而座標軸上的點有乙個特點,其只有乙個座標分量不為零,其他座標分量為零,即是稀疏的。所以有如下結論,l1範數可以導致稀疏解,l2範數導致稠密解。
從貝葉斯先驗的角度看,當訓練乙個模型時,僅依靠當前的訓練資料集是不夠的,為了實現更好的泛化能力,往往需要加入先驗項,而加入正則項相當於加入了一種先驗。
歸一化 標準化 正則化
無量綱化使不同規格的資料轉換到同一規格。常用的無量綱化方法有標準化和區間縮放法。標準化的前提是特徵值服從正態分佈,標準化後,其轉換成標準正態分佈 區間縮放法利用了邊界值資訊,將特徵的取值區間縮放到某個特點的範圍,例如 0,1 等。標準化的前提是特徵值服從正態分佈,標準化後,其轉換成標準正態分佈 z ...
標準化 歸一化 正則化
x x x min x max x min 歸一化後的資料取值區間為 0,1 from sklearn.preprocessing import minmaxscaler import numpy as np data np.random.uniform 0,100,10 np.newaxis 隨機...
歸一化,標準化與正則化
歸一化 resaling 一般是將資料對映到指定的範圍,用於去除不同維度放入量綱以及量綱單位。常見的對映範圍有 0,1 和 1,1 最常見的歸一化方法就是min max 歸一化 最常見的標準化方法 z score 標準化。其中 是樣本均值,是樣本資料的標準差。上圖則是乙個散點序列的標準化過程 原圖 ...