在學習機器學習過程中,我自己糾結了很久的乙個問題是 l1 norm 和 l2 norm 到底是什麼關係,有什麼區別。
l1 和 l2 都是深度學習中常用的正則化項(regularizer),描述的是模型的複雜度,它的作用在於模型越複雜,正則化項越大,將它加在損失函式(loss function)後面作為罰項(penalty),這樣在最小化損失函式的過程中就可以照顧到模型複雜度的問題,防止過擬合(overfitting)。
關於這兩種範數的公式請自行查詢,下面主要說一下這兩者的關係。
l1正則化會讓你的引數變得更稀疏,也就是使很多引數退化到0,這樣可以起到類似於dropout和特徵選取的功能。另外,l1正則化的公式不可導,這使得反向求偏導數以優化引數時計算過程變得複雜,也使得優化帶有l1正則化項的損失函式更加複雜,方法也五花八門。
l2正則化,則不會讓你的引數退化到0,也就是使你的引數稀疏,因為有平方的存在,當引數很小的時候,這個引數基本就被忽略了,並不會被進一步調整為0。而且l2正則化的公式可導,這使得在優化時計算過程比l1要簡潔。
機器學習 L1與L2正則化項
題目 關於支援向量機svm,下列說法錯誤的是 a.l2正則項,作用是最大化分類間隔,使得分類器擁有更強的泛化能力 b.hinge 損失函式,作用是最小化經驗分類錯誤 c.分類間隔為1 w w 代表向量的模 d.當引數c越小時,分類間隔越大,分類錯誤越多,趨於欠學習 錯誤 在logistic regr...
L1範數與L2範數對比
l0範數是指向量中非0的元素的個數。l0範數很難優化求解 l1範數是指向量中各個元素絕對值之和 l2範數是指向量各元素的平方和然後求平方根 l1範數可以進行特徵選擇,即讓特徵的係數變為0.l2範數可以防止過擬合,提公升模型的泛化能力,有助於處理 condition number不好下的矩陣 資料變化...
L1與L2正則化
在機器學習中,我們茶廠聽到l1和l2正則化,用他們來防止過擬合,但是在什麼情況下使用它們和它們的原理是什麼樣的可能一知半解。所以在本部落格中將對l1和l2做簡單的介紹和應用場景。如果引數過多,模型過於複雜,容易造成過擬合 overfit 即模型在訓練樣本資料上表現的很好,但在實際測試樣本上表現的較差...