L1正則化與稀疏性 L1正則化不可導問題

2021-10-04 07:21:37 字數 2788 閱讀 7460

**l1正則化與稀疏性

座標軸下降法(解決l1正則化不可導的問題)、lasso回歸演算法: 座標軸下降法與最小角回歸法小結

l1正則化使得模型引數具有稀疏性的原理是什麼?

機器學習經典之作《pattern recognition and machine learning》中的第三章作出的乙個解釋無疑是權威且直觀的,我們也經常都是從這個角度出發,來解釋l1正則化使得模型引數具有稀疏性的原理。再回顧一下,以二維為例,紅色和黃色的部分是l1、l2正則項約束後的解空間,藍色的等高線是凸優化問題中的目標函式(未加入正則項的)的等高線,如圖所示,l2正則項約束後的解空間是圓形,而l1正則項約束後的解空間是菱形,顯然,菱形的解空間更容易在尖角處與等高線碰撞出稀疏解。

假設原目標函式是y=(

w1−2

)2+(

w2−2

)2y=(w_1−2)^2+(w_2−2)^2

y=(w1​

−2)2

+(w2

​−2)

2在未加入正則項之前,這個最優解無疑是(w1

=2,w

2=2)

(w_1=2,w_2=2)

(w1​=2

,w2​

=2)但加入了正則項y=(

w1−2

)2+(

w2−2

)2+1

∗(w1

2+w2

2)y=(w_1−2)^2+(w_2−2)^2+1∗(w^2_1+w^2_2)

y=(w1​

−2)2

+(w2

​−2)

2+1∗

(w12

​+w2

2​)之後但最優解就不再是(w1

=2,w

2=2)

(w_1=2,w_2=2)

(w1​=2

,w2​

=2)而是(w1

=1,w

2=1)

(w_1=1,w_2=1)

(w1​=1

,w2​

=1)這是(w1

−2)2

+(w2

−2)2

=a(w_1−2)^2+(w_2−2)^2=a

(w1​−2

)2+(

w2​−

2)2=

a 和 w12

+w22

=bw^2_1+w^2_2=b

w12​+w

22​=

b這兩個圓的切點。切點處 a=2

,b=2

a=2,b=2

a=2,b=

2,此時正好a=b

a=ba=

b,這與我們的目標函式取值 y=(

w1−2

)2+(

w2−2

)2y=(w_1−2)^2+(w_2−2)^2

y=(w1​

−2)2

+(w2

​−2)

2 是個圓形有關,如果是其他形狀,不一定有a=b

a=ba=

b。上面的解釋無疑是正確的,但還不夠準確,也就是回答但過於籠統,以至於忽略了幾個關鍵問題,例如,為什麼加入正則項就是定義了乙個解空間約束,為什麼l1、l2正則項的解空間不同。如果第乙個問題回答了,第二個問題相對好回答。

其實可以通過kkt條件給出一種解釋。

事實上,「帶正則化項」和「帶約束條件」是等價的,為了約束w的可能取值空間從而防止過擬合。

如果我們為線性回歸加上乙個約束,就是 w

ww 的 l2l2

l2範數不能大於 m

為了求解這個帶約束條件的不等式,我們會寫出拉格朗日函式

∗是原問題(1)的解,λ∗\lambda^{}λ

∗是對偶問題(2)的解,

一般都是先求出對偶問題的解λ∗\lambda^{}λ

∗,然後帶入kkt條件中(λ∗\lambda^{}λ

∗和w∗w^{}w

∗的關係),就能求出w∗w^{}w

∗。w∗w^w

∗也必然是原問題的解。

這裡kkt條件是:

其中,第乙個式子就是帶l2正則項的優化問題最優解w∗w^{}w

∗,而λ∗\lambda^{}λ

∗是l2正則項前的係數。

這就是為什麼帶正則化項相當於為引數約束了解空間,且l2正則項為引數約束了乙個圓形解空間,l1正則項為引數約束了乙個菱形解空間,如果原問題的最優解沒有落在解空間的內部,就只能落在解空間的邊界上。

而l1正則項為引數約束了乙個「稜角分明」的菱形解空間,更容易與目標函式等高線在角點,座標軸上碰撞,從而產生稀疏性。

看到上面,其實我直接有個疑問,就是「如果我們為線性回歸加上乙個約束,就是w的l2範數不能大於m」、這句話裡的m是個固定的確定值,還是瞎設的值。

後面我的想法是,任意給定乙個m值,都能得到乙個兩圓相切的切點,從而得到其給定m條件下的帶正則項的最優解,然後在不同的m值中,再選出某個m值對應的最優解是全域性最優解,從而得到最終的最優解。

正則化 L1正則化(稀疏性正則化)

稀疏向量通常包含許多維度。建立特徵組合會導致包含更多維度。由於使用此類高維度特徵向量,因此模型可能會非常龐大,並且需要大量的 ram。在高維度稀疏向量中,最好盡可能使權重正好降至 0。正好為 0 的權重基本上會使相應特徵從模型中移除。將特徵設為 0 可節省 ram 空間,且可以減少模型中的噪點。以乙...

學習筆記 稀疏性正則化 l1正則化

還記得我們之前用經度和緯度來進行分箱嗎?僅僅是2個特徵進行分箱組合就讓我們的輸入特徵數量暴增。假設我們現在有k個特徵需要來分箱,每個分為長度為k的獨熱編碼。那麼我們輸入特徵就為 k k個,這種指數增長會占用我們大量ram。這是我們需要辦法來拯救我們的ram。那麼乙個好的方法就是讓我們的部分權重為0,...

損失函式L1正則化稀疏性

機器學習演算法中為了防止過擬合,會在損失函式中加上懲罰因子,即為l1 l2正則化。因此最終的優化目標函式為 f x l x c reg x c 0 本文只講解l1正則化,因此reg x x 首先l x 和reg x 都是連續函式,因此f x 也是連續函式 其次l x 和reg x 都是凸函式,因此f...