L1正則L2正則的一些總結

2021-09-19 13:03:05 字數 2096 閱讀 6764

a、

b、c、

總結:對於部落格a的複述:  

我們先回顧一下房價**的例子。以下是使用多項式回歸來擬合房價**的資料:

可以看出,左圖擬合較為合適,而右圖過擬合。如果想要解決右圖中的過擬合問題,需要能夠使得

但是如何使得

我的理解:

要使得引數

此時,人們便想到了對θ的取值範圍做乙個約束,一般講引數記為符號w,也就是控制w的取值範圍,而控制w的取值範圍的方式可以想到的就是圓、球、平面、立方體等等,舉例:

w1和w2的取值控制在正方形區域內:

w1和w2的取值控制在圓形區域內:

用方程來標識的話分別為:w1^2+w2^2<=f和|w1|+|w2|<=f

用線性回歸的代價函式來舉例(經驗誤差):

新增正則項之後(結構誤差):

正則項怎麼與經驗誤差融合起來構建出結構誤差呢?

答案是帶有約束條件的優化問題:

優化目標是:

由1得到的正則項的**,可以通過圖、數學推倒兩種方式觀察l1正則和l2正則的特點。

圖的方式的闡述:

2.1圖的方式:

對於l1正則,還是老圖:

其中橢圓的形狀是結構風險函式的等勢線,假定中間紫色的橢圓是最小值時w1和w2的取值。先看外層的紅色的等勢線:

對於l2正則,依然老圖:

,可以看到黑色圓與等勢線的相切點很難坐落於某乙個座標軸上,並且基本上引數的取值都比較接近,這也是l2正則比較平滑的特性。

數學公式方式的闡述:

對於l1、l2正則:

對於l1正則,可以看式子①、②、③,它們是引數的更新過程,可以看到引數θ在更新的時候,每次都會減少或者增加λ,因為λ是不變的,所以很快引數就變為了0.

而對於l2正則,可以看到式子④、⑤、⑥,它們也是引數的更新過程,可以看到引數θ在更新的時候,每次都會減少或者增加λθ,由於θ是在變化的,而λ的絕對值是小於1的,所以θ會平滑的接近到0,但是不會等於0,這就是l2正則的平滑作用。

3、l1為什麼比l2更加稀疏?

假設只有乙個引數為ww,損失函式為l(w)l(w),分別加上l1正則項和l2正則項後有:

有了優化目標函式之後,對其進行優化,則引數w肯定在變化,在w的每個取值之處都有對應的損失函式值,但我們要找的是損失函式的最小值(也就是極值)。任何w的取值都有可能使損失函式成為極小值。

l2正則下,代價函式的優化:

l1正則下,代價函式的優化:

當w在某一時刻成為0的時候,l2正則下,w的導數為:

l1正則下,w的導數為:

對比這兩個正則下的結果,發現l1正則下,在w=0處,導數有個劇烈的變化,那麼導數的符號很可能會異號,那麼w=0這一點就很有可能是極值點,而我們優化目標函式的方向就是求極值點,那麼在求得極值的時候,l1正則下引數處於0的概率比l2正則下引數處於0的概率要大,那就是l1的結果比l2的結果更容易稀疏。

正則化(L1和L2正則)

稀疏性表示資料中心0佔比比較大 引西瓜書中p252原文 對於損失函式後面加入懲罰函式可以降低過擬合的風險,懲罰函式使用l2範數,則稱為嶺回歸,l2範數相當與給w加入先驗,需要要求w滿足某一分布,l2範數表示資料服從高斯分布,而l1範數表示資料服從拉普拉斯分布。從拉普拉斯函式和高斯函式的影象上看,拉普...

L1與L2正則化總結

1.過擬合的基礎概念 首先,用乙個例子來理解什麼是過擬合,假設我們要根據特徵分類。請看下面三幅圖,x1 x2 x3 這三幅圖很容易理解 1 圖x1明顯分類的有點欠缺,有很多的 男人 被分類成了 女人 2 圖x2雖然有兩個點分類錯誤,但是能夠理解,畢竟現實世界有噪音干擾,比如有些人男人留長髮 化妝 人...

L1正則與L2正則的區別

使用機器學習方法解決實際問題時,我們通常要用l1或l2範數做正則化 regularization 從而限制權值大小,減少過擬合風險。特別是在使用梯度下降來做目標函式優化時,很常見的說法是,l1正則化產生稀疏的權值,l2正則化產生平滑的權值。為什麼會這樣?這裡面的本質原因是什麼呢?下面我們從兩個角度來...