L1 正則為什麼會使引數偏向稀疏

2022-08-11 09:39:08 字數 852 閱讀 5893

2018-12-09 22:18:43

假設費用函式 l 與某個引數 x 的關係如圖所示:

則最優的 x 在綠點處,x 非零。

現在施加 l2 regularization,新的費用函式(

)如圖中藍線所示:

最優的 x 在黃點處,x 的絕對值減小了,但依然非零。

而如果施加 l1 regularization,則新的費用函式(

)如圖中粉線所示:

最優的 x 就變成了 0。這裡利用的就是絕對值函式的尖峰。

兩種 regularization 能不能把最優的 x 變成 0,取決於原先的費用函式在 0 點處的導數。

如果本來導數不為 0,那麼施加 l2 regularization 後導數依然不為 0,最優的 x 也不會變成 0。

而施加 l1 regularization 時,只要 regularization 項的係數 c 大於原先費用函式在 0 點處的導數的絕對值,x = 0 就會變成乙個極小值點。原因是我們可以對0兩邊進行求導分別得到f'(0) - c和f『(0) + c,如果c > f'(0),那麼左右兩邊就會異號,這樣的話,0就成了極小值點了。

上面只分析了乙個引數 x。事實上 l1 regularization 會使得許多引數的最優值變成 0,這樣模型就稀疏了。

L1正則化與稀疏性 L1正則化不可導問題

l1正則化與稀疏性 座標軸下降法 解決l1正則化不可導的問題 lasso回歸演算法 座標軸下降法與最小角回歸法小結 l1正則化使得模型引數具有稀疏性的原理是什麼?機器學習經典之作 pattern recognition and machine learning 中的第三章作出的乙個解釋無疑是權威且直...

正則化 L1正則化(稀疏性正則化)

稀疏向量通常包含許多維度。建立特徵組合會導致包含更多維度。由於使用此類高維度特徵向量,因此模型可能會非常龐大,並且需要大量的 ram。在高維度稀疏向量中,最好盡可能使權重正好降至 0。正好為 0 的權重基本上會使相應特徵從模型中移除。將特徵設為 0 可節省 ram 空間,且可以減少模型中的噪點。以乙...

損失函式L1正則化稀疏性

機器學習演算法中為了防止過擬合,會在損失函式中加上懲罰因子,即為l1 l2正則化。因此最終的優化目標函式為 f x l x c reg x c 0 本文只講解l1正則化,因此reg x x 首先l x 和reg x 都是連續函式,因此f x 也是連續函式 其次l x 和reg x 都是凸函式,因此f...