L1L2正則化的選擇

2021-09-26 23:34:42 字數 2504 閱讀 9435

範數是衡量某個向量空間(或矩陣)中的每個向量以長度或大小。範數的一般化定義:對實數p>=1, 範數定義如下:

加入正則化則減小模型複雜度:

l0範數限制非零引數個數

l1、l2範數限制引數大小,使引數接近0

min j(w;x,y)

s.t. ||w|| <= c ,c為常數

通過上面的式子構造拉格朗日函式:

l = j(w;x,y) + a * ( ||w|| - c )
要求l最小,即

min j(w;x,y) + a * ( ||w|| - c )
則函式l對w求導等於0,

min j(w;x,y) + a * ||w|| - a * c
最後那項為常數項,所有得到

min j(w;x,y) + a * ||w||
這個正是常用的目標函式加入正則化之後的式子,所有可證可以減小模型複雜度

min j(w;x,y) + a * ||w|| 中

當||w||為l1時:(假設只有兩個引數)

|w1| +|w2| <= c,影象如下:

而lr的損失函式j為一圈一圈的,將兩個圖畫在一起:

min j(w;x,y) + a * ||w||要求的是最小值,且同時滿足兩個條件,乙個為min j(w;x,y),乙個為min a * ||w||,所以解肯定在交線的位置

注意交點是在w2軸上的,座標為(0,w2)此時w1為0,當有很多位特徵的時候,會產生稀疏解

l2影象如下:

l2不會產生稀疏解

l1-ball 與l2-ball的不同就在於l1在和每個座標軸相交的地方都有「角」出現,而目標函式的"等高線"除非位置擺得非常好,大部分時候都會在角的地方相交。注意到在角的位置就會產生稀疏性。相比之下,l2-ball 就沒有這樣的性質,因為沒有角,所以第一次相交的地方出現在具有稀疏性的位置的概率就變得非常小。

l1可以實現稀疏,但我們會想呀,為什麼要稀疏?讓我們的引數稀疏有什麼好處呢?這裡扯兩點:

1)特徵選擇(feature selection):

大家對稀疏規則化趨之若鶩的乙個關鍵原因在於它能實現特徵的自動選擇。一般來說,xi的大部分元素(也就是特徵)都是和最終的輸出yi沒有關係或者不提供任何資訊的,在最小化目標函式的時候考慮xi這些額外的特徵,雖然可以獲得更小的訓練誤差,但在**新的樣本時,這些沒用的資訊反而會被考慮,從而干擾了對正確yi的**。稀疏規則化運算元的引入就是為了完成特徵自動選擇的光榮使命,它會學習地去掉這些沒有資訊的特徵,也就是把這些特徵對應的權重置為0。

2)可解釋性(interpretability):

另乙個青睞於稀疏的理由是,模型更容易解釋。例如患某種病的概率是y,然後我們收集到的資料x是1000維的,也就是我們需要尋找這1000種因素到底是怎麼影響患上這種病的概率的。假設我們這個是個回歸模型:y=w1x1+w2x2+…+w1000x1000+b(當然了,為了讓y限定在[0,1]的範圍,一般還得加個logistic函式)。通過學習,如果最後學習到的w就只有很少的非零元素,例如只有5個非零的wi,那麼我們就有理由相信,這些對應的特徵在患病分析上面提供的資訊是巨大的,決策性的。也就是說,患不患這種病只和這5個因素有關,那醫生就好分析多了。但如果1000個wi都非0,醫生面對這1000種因素,累覺不愛。

l2範數是指向量各元素的平方和然後求平方根。我們讓l2範數的規則項||w||2最小,可以使得w的每個元素都很小,都接近於0,但與l1範數不同,它不會讓它等於0,而是接近於0,這裡是有很大的區別的哦。而越小的引數說明模型越簡單,越簡單的模型則越不容易產生過擬合現象。

l2範數的好處是什麼呢?

1)學習理論的角度:

從學習理論的角度來說,l2範數可以防止過擬合,提公升模型的泛化能力。引數很小時,即使樣本資料x發生很大的變化,模型**值y的變化也會很有限。

2)優化計算的角度:

從優化或者數值計算的角度來說,l2範數有助於處理 condition number不好的情況下矩陣求逆很困難的問題。可以讓我們的優化求解變得穩定和快速。

一句話總結就是:l1會趨向於產生少量的特徵,而其他的特徵都是0,而l2會選擇更多的特徵,這些特徵都會接近於0。l1在特徵選擇時候非常有用,而l2就只是一種規則化而已。

L1 L2損失 和 L1 L2正則化

1 l1損失 最小絕對值誤差 最小化 值 真實值 的絕對值,魯棒性強。2 l2損失 最小平方誤差 最小化 值 真實值 的平方,對於大於1的數,平方更大,因此對樣本敏感。3 l1正則化 l1正則化和l2正則化可以看做是損失函式的懲罰項,l1正則化是指權值向量中各個元素的絕對值之和。l1正則化可以產生稀...

L1 L2正則化介紹

1 正則化 regularization 對引數w的影響 說明 loss 代表原始的代價函式,後面那一項就是l2正則化項,它是這樣來的 所有引數w的平方的和,除以訓練集的樣本大小n。就是正則項係數,權衡正則項.在這裡並沒有除以樣本數量和2,是因為使用了絕對值誤差。一般情況下,los s y y 2 ...

L1,L2正則化的區別

1,l1會趨向於產生少量的特徵,而其他不重要的特徵都為0,會產生稀疏性,可以用來選擇特徵,也能一定程度上防止過擬合。而l 2會選擇更多的特徵,特徵值都趨近於0,防止過擬合。lasso在選擇特徵時非常有用,而ridge就只是規則化而已。所以在所有特徵中只有少數特徵起重要作用的情況下,選擇lasso進行...