L1 L2範數理解 Ridge以及Lasso回歸

2021-10-11 09:27:34 字數 2971 閱讀 7700

l0範數:指向量中非0的元素的個數。(l0範數很難優化求解)

l1範數:指向量中各個元素絕對值之和

l2範數:指向量各元素的平方和然後求平方根

注:l0範數,指向量中非零元素的個數。無窮範數,指向量中所有元素的最大絕對值。

l1範數:可以進行特徵選擇,即讓特徵的係數變為0.

l2範數:可以防止過擬合,提公升模型的泛化能力,有助於處理 condition number不好下的矩陣(資料變化很小矩陣求解後結果變化很大)(核心:l2對大數,對outlier離群點更敏感!)

下降速度:最小化權值引數l1比l2變化的快

l0範數:指向量中非零元素的個數。

l1範數:是指向量中各個元素絕對值之和,也有個美稱叫「稀疏規則運算元」(lasso regularization)。現在我們來分析下這個價值乙個億的問題:

1.為什麼l1範數會使權值稀疏?

:任何的規則化運算元,如果他在wi=0的地方不可微,並且可以分解為乙個「求和」的形式,那麼這個規則化運算元就可以實現稀疏。

2.既然l0可以實現稀疏,為什麼不用l0,而要用l1呢?

:一是因為l0範數很難優化求解(np難問題),二是l1範數是l0範數的最優凸近似,而且它比l0範數要容易優化求解。所以大家才把目光和萬千寵愛轉於l1範數。

3.總結

:l1範數和l0範數可以實現稀疏,l1因具有比l0更好的優化求解特性而被廣泛應用。

理解備註:

1.不可微的理解:

在w1/w2=0的地方因為是|w1|,所以其是不可導的。

解決方法:lars、fist、座標軸下降法。

2.為什麼要特徵選擇/稀疏:

l1範數:是指向量中各個元素絕對值之和,也有個美稱叫「稀疏規則運算元」(lasso regularization)。

l2範數:它也不遜於l1範數,它有兩個美稱,在回歸裡面,有人把有它的回歸叫「嶺回歸」(ridge regression),有人也叫它「權值衰減weight decay」。注意,其一般會在l2的範數基礎上在平方!!!

注:l1範數的理解見前面,l2範數的理解如下

l2範數的規則項||w||2最小,可以使得w的每個元素都很小,都接近於0,但與l1範數不同,它不會讓它等於0,而是接近於0,這裡是有很大的區別的哦。而越小的引數說明模型越簡單,越簡單的模型則越不容易產生過擬合現象。

1.為什麼越小的引數說明模型越簡單?

我的理解是:限制了引數很小,實際上就限制了多項式某些分量的影響很小(看上面線性回歸的模型的那個擬合的圖),這樣就相當於減少引數個數。這裡可以想象只有兩者引數w1、w2,對於y= w1x1+w2x2,如果w1和w2越小,當x1、x2發生變化的時候,y的值變化不是很大,所以比較平滑,模型也就越簡單。

2.l2範數的好處

3.兩者的差距

1)下降速度:

如上圖:l1就是按絕對值函式的「坡」下降的,而l2是按二次函式的「坡」下降。所以實際上在0附近,l1的下降速度比l2的下降速度要快。

2)模型空間的限制:

我們將模型空間限制在w的乙個l1-ball 中。為了便於視覺化,我們考慮兩維的情況,在(w1, w2)平面上可以畫出目標函式的等高線,而約束條件則成為平面上半徑為c的乙個 norm ball 。等高線與 norm ball 首次相交的地方就是最優解:

可以看到,l1-ball 與l2-ball 的不同就在於l1在和每個座標軸相交的地方都有「角」出現,而目標函式的測地線除非位置擺得非常好,大部分時候都會在角的地方相交。注意到在角的位置就會產生稀疏性,例如圖中的相交點就有w1=0,而更高維的時候(想象一下三維的l1-ball 是什麼樣的?)除了角點以外,還有很多邊的輪廓也是既有很大的概率成為第一次相交的地方,又會產生稀疏性。

相比之下,l2-ball 就沒有這樣的性質,因為沒有角,所以第一次相交的地方出現在具有稀疏性的位置的概率就變得非常小了。這就從直觀上來解釋了為什麼l1-regularization 能產生稀疏性,而l2-regularization 不行的原因了。

因此,一句話總結就是:l1會趨向於產生少量的特徵,而其他的特徵都是0,而l2會選擇更多的特徵,這些特徵都會接近於0。lasso在特徵選擇時候非常有用,而ridge就只是一種規則化而已。

l1範數:因為存在不可導的地方,其解決方法參見:lars、fist、座標軸下降法

lars:

fist:

座標軸下降法:

l2範數:

深入理解L1 L2範數

說起l1 l2範數,大家會立馬想到這是機器學習中常用的正則化方法,一般新增在損失函式後面,可以看作是損失函式的懲罰項。那新增l1和l2正則化後到底有什麼具體作用呢?為什麼會產生這樣的作用?本篇博文將和大家一起去 l1範數 l2範數背後的原理。l1和l2的作用如下 理解l1,主要需要理解兩個問題。第一...

L1 L2範數 概念

向量的範數可以簡單形象的理解為向量的長度,或者向量到零點的距離,或者相應的兩個點之間的距離。向量的範數定義 向量的範數是乙個函式 x 滿足非負性 x 0,齊次性 cx c x 三角不等式 x y x y 常用的向量的範數 l0範數 x 0為x向量各個非零元素的個數 l1範數 x 1 為x向量各個元素...

對於正則化項L1,L2範數的理解

之前講到了利用正則化項降低過擬合,這裡再總結一下l1,l2這兩種範數作為正則化項各自的特點及區別 在深度學習一書中,帶有l2範數的正則化項的目標函式如下 其中 wtw wwtw w 2 2 w 2 即為l2範數,其實運用仔細一看這個就是帶有不等式約束的拉格朗日函式最優化問題即 minj w x,y ...