a、
b、c、
總結:對於部落格a的複述:
我們先回顧一下房價**的例子。以下是使用多項式回歸來擬合房價**的資料:
可以看出,左圖擬合較為合適,而右圖過擬合。如果想要解決右圖中的過擬合問題,需要能夠使得
但是如何使得
我的理解:
要使得引數
此時,人們便想到了對θ的取值範圍做乙個約束,一般講引數記為符號w,也就是控制w的取值範圍,而控制w的取值範圍的方式可以想到的就是圓、球、平面、立方體等等,舉例:
w1和w2的取值控制在正方形區域內:
w1和w2的取值控制在圓形區域內:
用方程來標識的話分別為:w1^2+w2^2<=f和|w1|+|w2|<=f
用線性回歸的代價函式來舉例(經驗誤差):
新增正則項之後(結構誤差):
正則項怎麼與經驗誤差融合起來構建出結構誤差呢?
答案是帶有約束條件的優化問題:
優化目標是:
由1得到的正則項的**,可以通過圖、數學推倒兩種方式觀察l1正則和l2正則的特點。
圖的方式的闡述:
2.1圖的方式:
對於l1正則,還是老圖:
其中橢圓的形狀是結構風險函式的等勢線,假定中間紫色的橢圓是最小值時w1和w2的取值。先看外層的紅色的等勢線:
對於l2正則,依然老圖:
,可以看到黑色圓與等勢線的相切點很難坐落於某乙個座標軸上,並且基本上引數的取值都比較接近,這也是l2正則比較平滑的特性。
數學公式方式的闡述:
對於l1、l2正則:
對於l1正則,可以看式子①、②、③,它們是引數的更新過程,可以看到引數θ在更新的時候,每次都會減少或者增加λ,因為λ是不變的,所以很快引數就變為了0.
而對於l2正則,可以看到式子④、⑤、⑥,它們也是引數的更新過程,可以看到引數θ在更新的時候,每次都會減少或者增加λθ,由於θ是在變化的,而λ的絕對值是小於1的,所以θ會平滑的接近到0,但是不會等於0,這就是l2正則的平滑作用。
3、l1為什麼比l2更加稀疏?
假設只有乙個引數為ww,損失函式為l(w)l(w),分別加上l1正則項和l2正則項後有:
有了優化目標函式之後,對其進行優化,則引數w肯定在變化,在w的每個取值之處都有對應的損失函式值,但我們要找的是損失函式的最小值(也就是極值)。任何w的取值都有可能使損失函式成為極小值。
l2正則下,代價函式的優化:
l1正則下,代價函式的優化:
當w在某一時刻成為0的時候,l2正則下,w的導數為:
l1正則下,w的導數為:
對比這兩個正則下的結果,發現l1正則下,在w=0處,導數有個劇烈的變化,那麼導數的符號很可能會異號,那麼w=0這一點就很有可能是極值點,而我們優化目標函式的方向就是求極值點,那麼在求得極值的時候,l1正則下引數處於0的概率比l2正則下引數處於0的概率要大,那就是l1的結果比l2的結果更容易稀疏。
正則化(L1和L2正則)
稀疏性表示資料中心0佔比比較大 引西瓜書中p252原文 對於損失函式後面加入懲罰函式可以降低過擬合的風險,懲罰函式使用l2範數,則稱為嶺回歸,l2範數相當與給w加入先驗,需要要求w滿足某一分布,l2範數表示資料服從高斯分布,而l1範數表示資料服從拉普拉斯分布。從拉普拉斯函式和高斯函式的影象上看,拉普...
L1與L2正則化總結
1.過擬合的基礎概念 首先,用乙個例子來理解什麼是過擬合,假設我們要根據特徵分類。請看下面三幅圖,x1 x2 x3 這三幅圖很容易理解 1 圖x1明顯分類的有點欠缺,有很多的 男人 被分類成了 女人 2 圖x2雖然有兩個點分類錯誤,但是能夠理解,畢竟現實世界有噪音干擾,比如有些人男人留長髮 化妝 人...
L1正則與L2正則的區別
使用機器學習方法解決實際問題時,我們通常要用l1或l2範數做正則化 regularization 從而限制權值大小,減少過擬合風險。特別是在使用梯度下降來做目標函式優化時,很常見的說法是,l1正則化產生稀疏的權值,l2正則化產生平滑的權值。為什麼會這樣?這裡面的本質原因是什麼呢?下面我們從兩個角度來...