歸一化 (resaling) 一般是將資料對映到指定的範圍,用於去除不同維度放入量綱以及量綱單位。
常見的對映範圍有 [ 0, -1 ] 和 [ -1, 1],最常見的歸一化方法就是min-max 歸一化:
最常見的標準化方法:z-score 標準化。
其中μ是樣本均值,σ是樣本資料的標準差。
上圖則是乙個散點序列的標準化過程:原圖 -> 減去均值 -> 除以標準差。
顯而易見,變成了乙個均值為 0 ,方差為 1 的分布,下圖通過 cost 函式讓我們更好的理解標準化的作用。
機器學習的目標無非就是不斷優化損失函式,使其值最小。在上圖中,j (w, b) 就是我們要優化的目標函式。
正則化主要用於避免過擬合的產生和減少網路誤差。
正則化一般具有如下形式:
其中,第1項是經驗風險,第2項是正則項,λ>=0 為調整兩者之間關係的係數。
第1項是經驗風險較小的模型可能較複雜(有多個非零引數),這時,第2項的模型度會較好。
常見的正則項有l1正則和l2正則,其中l2正則的控制過擬合的效果比l1正則的好。
正則化的作用是選擇經驗風險與模型複雜度同時較小的模型。
l
pl_p
lp範數:l
pl_p
lp正則的l是指l
pl_p
lp範數,其定義是:
在機器學習中,若使用了∣∣w
∣∣p||w||_p
∣∣w∣∣p
作為正則項,我們則說該機器學習引入了l
pl_p
lp正則項。
l1 正則 lasso regularizer
l2 正則 ridge regularizer / weight decay
知乎:
歸一化 標準化 正則化
無量綱化使不同規格的資料轉換到同一規格。常用的無量綱化方法有標準化和區間縮放法。標準化的前提是特徵值服從正態分佈,標準化後,其轉換成標準正態分佈 區間縮放法利用了邊界值資訊,將特徵的取值區間縮放到某個特點的範圍,例如 0,1 等。標準化的前提是特徵值服從正態分佈,標準化後,其轉換成標準正態分佈 z ...
標準化 歸一化 正則化
x x x min x max x min 歸一化後的資料取值區間為 0,1 from sklearn.preprocessing import minmaxscaler import numpy as np data np.random.uniform 0,100,10 np.newaxis 隨機...
歸一化 標準化 正則化
我們經常將歸一化和標準化弄混淆,下面簡單描述一下他們之間的差異 歸一化的目標是找到某種對映關係,將原資料對映到 a,b a,b 區間上。一般a,b a,b會取 1 1 0,1 1,1 0,1 這些組合 a b 一般有兩種應用場景 常用min max normalization 用大數定理將資料轉化為...