這部分內容將解釋
為什麼l1正則化可以產生稀疏模型(l1是怎麼讓係數等於零的)
,以及為什麼l2正則化可以防止過擬合
。假設有如下帶l1正則化的損失函式: j=
j0+α
∑w|w
|(1)j0
是原始的損失函式,加號後面的一項是l1正則化項,
α是正則化係數。注意到l1正則化是權值的
絕對值之和 ,j
是帶有絕對值符號的函式,因此
j是不完全可微的。機器學習的任務就是要通過一些方法(比如梯度下降)求出損失函式的最小值。當我們在原始損失函式j0
後新增l1正則化項時,相當於對j0
做了乙個約束。令l=
α∑w|
w|,則j
=j0+
l,此時我們的任務變成在 l
約束下求出
j 0取最小值的解
。考慮二維的情況,即只有兩個權值w1
和w2,此時l=
|w1|
+|w2
|對於梯度下降法,求解j0
的過程可以畫出等值線,同時l1正則化的函式
l也可以在w1
w2的二維平面上畫出來。如下圖:
圖中等值線是j0
的等值線,黑色方形是
l函式的圖形。在圖中,當j0
等值線與
l圖形首次相交的地方就是最優解。上圖中j0
與l在l
的乙個頂點處相交,這個頂點就是最優解。注意到這個頂點的值是(w
1,w2
)=(0
,w)。可以直觀想象,因為
l函式有很多『突出的角』(二維情況下四個,多維情況下更多),j0
與這些角接觸的機率會遠大於與
l其它部位接觸的機率,而在這些角上,會有很多權值等於0,這就是為什麼l1正則化可以產生稀疏模型,進而可以用於特徵選擇。
而正則化前面的
係數 α
,可以控制
l圖形的大小。
α越小,
l的圖形越大(上圖中的黑色方框);
α越大,
l 的圖形就越小,可以小到黑色方框只超出原點範圍一點點
,這是最優點的值 (w
1,w2
)=(0
,w)中的
w可以取到很小的值。
類似,假設有如下帶l2正則化的損失函式: j=
圖2 l2正則化
二維平面下l2正則化的函式圖形是個圓,與方形相比,被磨去了稜角。因此j0
與l相交時使得w1
或w2等於零的機率小了許多,這就是為什麼l2正則化不具有稀疏性的原因。
**:
機器學習 L1和L2正則化的直觀理解
l2 norm ridge回歸 l1 norm lasso回歸 l1 norm 和 l2 norm都能防止過擬合,一般l2 norm的效能更好一些。l1 norm能夠進行特選擇對資料進行降維 產生稀疏模型,能夠幫助我們去除某些特徵,因此可以用於特徵選擇。l1 norm 和 l2 norm都能防止過擬...
L1和L2正則化的理解
摘錄自 正則化之所以能夠降低過擬合的原因在於,正則化是結構風險最小化的一種策略實現。給loss function加上正則化項,能使得新得到的優化目標函式h f normal,需要在f和normal中做乙個權衡 trade off 如果還像原來只優化f的情況下,那可能得到一組解比較複雜,使得正則項no...
L1和L2正則化
l1和l2正則化 l1與l2正則化都是防止模型過擬合,其方式略有不同。具體請見下文。1 l1 正則化l1正則化 1範數 是指,各權值 變數 特徵 絕對值之和。其作用是產生權值的稀疏模型,也就是讓大部分權值為0.為什麼能產生權值稀疏模型?因為如下圖所示,各權值絕對值之和後得到乙個矩陣,很容易在矩陣的頂...