稀疏性表示資料中心0佔比比較大
引西瓜書中p252原文:
對於損失函式後面加入懲罰函式可以降低過擬合的風險,懲罰函式使用l2範數,則稱為嶺回歸,l2範數相當與給w加入先驗,需要要求w滿足某一分布,l2範數表示資料服從高斯分布,而l1範數表示資料服從拉普拉斯分布。從拉普拉斯函式和高斯函式的影象上看,拉普拉斯函式取到0的概率更大,這樣採用l1範數會有一些取到0
而且在小的資料是,l1比l2的懲罰力度大
我們對於最後的目標優化為 min d(w) + λ * r(w),其中r(w)表示正則項,然後我們轉化為求解 min d(w), s.t. r(w) <= η。
黃色區域為我們加入的懲罰項,轉化以後相當於乙個在黃色範圍內求解最小值的乙個過程。若相交為一篇區域,那麼我們總能找到一點,在區域內,並且使得d(w)的值最小,最終影象會相切,其中λ越小限制範圍越大,因為限制約小表明可以取的範圍約大,所以橙色面積越大。
從數學公式的角度來說 l1 = |w1| + |w2| + ... + |wn| 導數 wi為1, 而l2 = 1/2 * (w1^2 + w2^2 + ... + wn^2)導數wi 為wi,取學習速率為λ, l1範數為:wi = wi - λ * 1,l2範數為 wi = wi - λ * wi,這樣l1每次減去乙個定值,總能減到0,而l2每次取自己的(1-λ),下降比較緩慢
王小明,ser jamie
《機器學習》 周志華
L1正則化和L2正則化
為了降低過擬合風險,需要控制模型複雜度,自然想到減少引數個數,但是這個問題不易直接解決,可以通過放寬條件控制。新增優化條件 這會使引數條件空間有明顯的凸角,這些突出點顯然會成為聯合優化時的最優解,但同時這些這些凸點中又會有較多的0值 由其限制條件可見,凸點都在座標軸上 因此l1範數會更易得到稀疏解,...
L1正則化和L2正則化
l1標準化與l2標準化 參考 l1 l2標準化及其python 實現 我們知道,正則化的目的是限制引數過多或者過大,避免模型更加複雜。l1 與 l2 解的稀疏性 以二維情況討論,上圖左邊是 l2 正則化,右邊是 l1 正則化。從另乙個方面來看,滿足正則化條件,實際上是求解藍色區域與黃色區域的交點,即...
L1正則化和L2正則化
摘自 深度學習 l1正則化和l2正則化 在機器學習中,我們非常關心模型的 能力,即模型在新資料上的表現,而不希望過擬合現象的的發生,我們通常使用正則化 regularization 技術來防止過擬合情況。正則化是機器學習中通過顯式的控制模型複雜度來避免模型過擬合 確保泛化能力的一種有效方式。如果將模...