L1正則L2正則的一些總結

2021-09-19 13:03:05 字數 2096 閱讀 6764

a、

b、c、

總結：對於部落格a的複述：

我們先回顧一下房價**的例子。以下是使用多項式回歸來擬合房價**的資料：

可以看出，左圖擬合較為合適，而右圖過擬合。如果想要解決右圖中的過擬合問題，需要能夠使得

但是如何使得

我的理解：

要使得引數

此時，人們便想到了對θ的取值範圍做乙個約束，一般講引數記為符號w，也就是控制w的取值範圍，而控制w的取值範圍的方式可以想到的就是圓、球、平面、立方體等等，舉例：

w1和w2的取值控制在正方形區域內：

w1和w2的取值控制在圓形區域內：

用方程來標識的話分別為：w1^2+w2^2<=f和|w1|+|w2|<=f

用線性回歸的代價函式來舉例（經驗誤差）：

新增正則項之後（結構誤差）：

正則項怎麼與經驗誤差融合起來構建出結構誤差呢？

答案是帶有約束條件的優化問題：

優化目標是：

由1得到的正則項的**，可以通過圖、數學推倒兩種方式觀察l1正則和l2正則的特點。

圖的方式的闡述：

2.1圖的方式：

對於l1正則，還是老圖：

其中橢圓的形狀是結構風險函式的等勢線，假定中間紫色的橢圓是最小值時w1和w2的取值。先看外層的紅色的等勢線：

對於l2正則，依然老圖：

，可以看到黑色圓與等勢線的相切點很難坐落於某乙個座標軸上，並且基本上引數的取值都比較接近，這也是l2正則比較平滑的特性。

數學公式方式的闡述：

對於l1、l2正則：

對於l1正則，可以看式子①、②、③，它們是引數的更新過程，可以看到引數θ在更新的時候，每次都會減少或者增加λ，因為λ是不變的，所以很快引數就變為了0.

而對於l2正則，可以看到式子④、⑤、⑥，它們也是引數的更新過程，可以看到引數θ在更新的時候，每次都會減少或者增加λθ，由於θ是在變化的，而λ的絕對值是小於1的，所以θ會平滑的接近到0，但是不會等於0，這就是l2正則的平滑作用。

3、l1為什麼比l2更加稀疏？

假設只有乙個引數為ww，損失函式為l(w)l(w)，分別加上l1正則項和l2正則項後有：

有了優化目標函式之後，對其進行優化，則引數w肯定在變化，在w的每個取值之處都有對應的損失函式值，但我們要找的是損失函式的最小值（也就是極值）。任何w的取值都有可能使損失函式成為極小值。

l2正則下，代價函式的優化：

l1正則下，代價函式的優化：

當w在某一時刻成為0的時候，l2正則下，w的導數為：

l1正則下，w的導數為：

對比這兩個正則下的結果，發現l1正則下，在w=0處，導數有個劇烈的變化，那麼導數的符號很可能會異號，那麼w=0這一點就很有可能是極值點，而我們優化目標函式的方向就是求極值點，那麼在求得極值的時候，l1正則下引數處於0的概率比l2正則下引數處於0的概率要大，那就是l1的結果比l2的結果更容易稀疏。

正則化（L1和L2正則）

稀疏性表示資料中心0佔比比較大引西瓜書中p252原文對於損失函式後面加入懲罰函式可以降低過擬合的風險，懲罰函式使用l2範數，則稱為嶺回歸，l2範數相當與給w加入先驗，需要要求w滿足某一分布，l2範數表示資料服從高斯分布，而l1範數表示資料服從拉普拉斯分布。從拉普拉斯函式和高斯函式的影象上看，拉普...

L1與L2正則化總結

1.過擬合的基礎概念首先，用乙個例子來理解什麼是過擬合，假設我們要根據特徵分類。請看下面三幅圖，x1 x2 x3 這三幅圖很容易理解 1 圖x1明顯分類的有點欠缺，有很多的男人被分類成了女人 2 圖x2雖然有兩個點分類錯誤，但是能夠理解，畢竟現實世界有噪音干擾，比如有些人男人留長髮化妝人...

L1正則與L2正則的區別

使用機器學習方法解決實際問題時，我們通常要用l1或l2範數做正則化 regularization 從而限制權值大小，減少過擬合風險。特別是在使用梯度下降來做目標函式優化時，很常見的說法是,l1正則化產生稀疏的權值,l2正則化產生平滑的權值。為什麼會這樣？這裡面的本質原因是什麼呢？下面我們從兩個角度來...