L1和L2正則化的直觀理解

這部分內容將解釋

為什麼l1正則化可以產生稀疏模型（l1是怎麼讓係數等於零的）

，以及為什麼l2正則化可以防止過擬合

。假設有如下帶l1正則化的損失函式： j=

j0+α

∑w|w

|(1)j0

是原始的損失函式，加號後面的一項是l1正則化項，

α是正則化係數。注意到l1正則化是權值的

絕對值之和，j

是帶有絕對值符號的函式，因此

j是不完全可微的。機器學習的任務就是要通過一些方法（比如梯度下降）求出損失函式的最小值。當我們在原始損失函式j0

後新增l1正則化項時，相當於對j0

做了乙個約束。令l=

α∑w|

w|，則j

=j0+

l，此時我們的任務變成在 l

約束下求出

j 0取最小值的解

。考慮二維的情況，即只有兩個權值w1

和w2，此時l=

|w1|

+|w2

|對於梯度下降法，求解j0

的過程可以畫出等值線，同時l1正則化的函式

l也可以在w1

w2的二維平面上畫出來。如下圖：

圖中等值線是j0

的等值線，黑色方形是

l函式的圖形。在圖中，當j0

等值線與

l圖形首次相交的地方就是最優解。上圖中j0

與l在l

的乙個頂點處相交，這個頂點就是最優解。注意到這個頂點的值是(w

1,w2

)=(0

,w)。可以直觀想象，因為

l函式有很多『突出的角』（二維情況下四個，多維情況下更多），j0

與這些角接觸的機率會遠大於與

l其它部位接觸的機率，而在這些角上，會有很多權值等於0，這就是為什麼l1正則化可以產生稀疏模型，進而可以用於特徵選擇。

而正則化前面的

係數 α

，可以控制

l圖形的大小。

α越小，

l的圖形越大（上圖中的黑色方框）；

α越大，

l 的圖形就越小，可以小到黑色方框只超出原點範圍一點點

，這是最優點的值 (w

1,w2

)=(0

,w)中的

w可以取到很小的值。

類似，假設有如下帶l2正則化的損失函式： j=

圖2 l2正則化

二維平面下l2正則化的函式圖形是個圓，與方形相比，被磨去了稜角。因此j0

與l相交時使得w1

或w2等於零的機率小了許多，這就是為什麼l2正則化不具有稀疏性的原因。

**：

機器學習 L1和L2正則化的直觀理解

l2 norm ridge回歸 l1 norm lasso回歸 l1 norm 和 l2 norm都能防止過擬合，一般l2 norm的效能更好一些。l1 norm能夠進行特選擇對資料進行降維產生稀疏模型，能夠幫助我們去除某些特徵，因此可以用於特徵選擇。l1 norm 和 l2 norm都能防止過擬...

L1和L2正則化的理解

摘錄自正則化之所以能夠降低過擬合的原因在於，正則化是結構風險最小化的一種策略實現。給loss function加上正則化項，能使得新得到的優化目標函式h f normal，需要在f和normal中做乙個權衡 trade off 如果還像原來只優化f的情況下，那可能得到一組解比較複雜，使得正則項no...

L1和L2正則化

l1和l2正則化 l1與l2正則化都是防止模型過擬合，其方式略有不同。具體請見下文。1 l1 正則化l1正則化 1範數是指，各權值變數特徵絕對值之和。其作用是產生權值的稀疏模型，也就是讓大部分權值為0.為什麼能產生權值稀疏模型？因為如下圖所示，各權值絕對值之和後得到乙個矩陣，很容易在矩陣的頂...

L1和L2正則化的直觀理解

機器學習 L1和L2正則化的直觀理解

L1和L2正則化的理解

L1和L2正則化

相關推薦