1) 正則化(regularization)對引數w的影響
【說明】:loss』代表原始的代價函式,後面那一項就是l2正則化項,它是這樣來的:所有引數w的平方的和,除以訓練集的樣本大小n。λ就是正則項係數,權衡正則項.在這裡並沒有除以樣本數量和2,是因為使用了絕對值誤差。一般情況下, los
s′=(
y−yˉ
)2+λ
2n∣∣
w∣∣2
loss^=(y-\bar)^2+\frac ^2
loss′=
(y−y
ˉ)2
+2nλ
∣∣w
∣∣2正則項為:λ2n
∣∣w∣
∣2\frac ^2
2nλ∣∣
w∣∣2
,這是除以2是為了求導的時候計算方便。
2) 什麼是weight decay?和正則化有何聯絡
正則項是模型複雜度的單調遞增函式,所以weight decay的作用是調節模型複雜度對損失函式的影響,若weight decay很大,則複雜的模型損失函式的值也就大。
首先,假設我們有loss function為 e(w
)e(w)
e(w)
梯度下降演算法告訴我們,為了最小化loss function為 ,要在 e的最快速下降的方向修改權值:
w i=
wi−η
∂e∂w
iw_i=w_i- \eta \frac
wi=wi
−η∂
wi∂
e這裡 η
\eta
η為學習率,學習率越大則對應的權重 修改也越大。
為了防止過擬合,在loss function上加上正則項(懲罰項),一種簡單的方法是通過在權重上引入一零均值高斯項。
e (w
)=e(
w)+λ
∣∣w∣
∣2e(w)=e(w)+\lambda||w||^2
e(w)=e
(w)+
λ∣∣w
∣∣2這裡,λ為正則化引數。正則項是模型複雜度的單調遞增函式,所以weight decay的作用是調節模型複雜度對損失函式的影響,若weight decay很大,則複雜的模型損失函式的值也就大。
應用梯度下降演算法到這個新的cost函式,我們得到:
w i=
wi−η
∂e∂w
i−2λ
wiw_i=w_i- \eta \frac-2\lambda w_i
wi=wi
−η∂
wi∂
e−2
λwi
這新的一項−2λ
wi-2\lambda w_i
−2λwi
起到的就是正則化的作用,使得權重與其大小成比例衰減。因為不新增正則化之前w的係數是1,現在是(1−
2λ)(1-2\lambda)
(1−2λ)
,λ
\lambda
λ很小,所以w的係數此時小於1,更小的權值w,從某種意義上說,表示網路的複雜度更低,對資料的擬合剛剛好(這個法則也叫做奧卡姆剃刀)
【乙個完美的解釋】
過擬合的時候,擬合函式的係數往往非常大,為什麼?如下圖所示,過擬合,就是擬合函式需要顧忌每乙個點,最終形成的擬合函式波動很大。在某些很小的區間裡,函式值的變化很劇烈。這就意味著函式在某些小區間裡的導數值(絕對值)非常大,由於自變數值可大可小,所以只有係數足夠大,才能保證導數值很大。
而正則化是通過約束引數的範數使其不要太大,所以可以在一定程度上減少過擬合情況。
L1 L2損失 和 L1 L2正則化
1 l1損失 最小絕對值誤差 最小化 值 真實值 的絕對值,魯棒性強。2 l2損失 最小平方誤差 最小化 值 真實值 的平方,對於大於1的數,平方更大,因此對樣本敏感。3 l1正則化 l1正則化和l2正則化可以看做是損失函式的懲罰項,l1正則化是指權值向量中各個元素的絕對值之和。l1正則化可以產生稀...
L1,L2正則化的區別
1,l1會趨向於產生少量的特徵,而其他不重要的特徵都為0,會產生稀疏性,可以用來選擇特徵,也能一定程度上防止過擬合。而l 2會選擇更多的特徵,特徵值都趨近於0,防止過擬合。lasso在選擇特徵時非常有用,而ridge就只是規則化而已。所以在所有特徵中只有少數特徵起重要作用的情況下,選擇lasso進行...
DataAnalysis 正則化和L1 L2範數
一般而言,監督學習的目標函式是 第一項機器學習中損失函式後面經常會跟乙個l1或者l2正則函式,也稱l1 l2範數。0 l0範數 指權值向量 1 l1範數 指權值向量 注 由於l0範數很難優化求解 np難問題 和l1範數是l0範數的最優凸近似,從而一般只考慮l1而不考慮l2範數。2 l2範數 指權值向...