機器學習 L1與L2正則化項

2021-08-08 14:36:37 字數 1483 閱讀 4338

題目

關於支援向量機svm,下列說法錯誤的是()

a. l2正則項,作用是最大化分類間隔,使得分類器擁有更強的泛化能力

b. hinge 損失函式,作用是最小化經驗分類錯誤

c. 分類間隔為1/||w||,||w||代表向量的模

d. 當引數c越小時,分類間隔越大,分類錯誤越多,趨於欠學習(錯誤)

在logistic regression 中,如果同時加入l1和l2範數,會產生什麼效果()

a. 可以做特徵選擇,並在一定程度上防止過擬合

b. 能解決維度災難問題

c. 能加快計算速度

d. 可以獲得更準確的結果(正確答案)

l1正則化和l2正則化

正則化項即罰函式,該項對模型向量進行「懲罰」,從而避免單純最小二乘問題的過擬合問題。訓練的目的是最小化目標函式,則c越小,意味著懲罰越小,分類間隔也就越小,分類錯誤也就越少。

正則化項本質上是一種先驗資訊,整個最優化問題從貝葉斯觀點來看是一種貝葉斯最大後驗估計,其中正則化項對應後驗估計中的先驗資訊,損失函式對應後驗估計中的似然函式,兩者的乘積即對應貝葉斯最大後驗估計的形式,如果你將這個貝葉斯最大後驗估計的形式取對數,即進行極大似然估計,你就會發現問題立馬變成了損失函式+正則化項的最優化問題形式。

(1) 避免出現過擬合(over-fitting)。經驗風險最小化 + 正則化項 = 結構風險最小化。

(2) 從模型求解上看,正則化提供了一種唯一解的可能。光用最小二乘擬合可能出現無陣列解,加個l1或l2正則化項能有唯一解。

l1範數是指向量中各個元素絕對值之和,用於特徵選擇;

l2範數 是指向量各元素的平方和然後求平方根,用於 防止過擬合,提公升模型的泛化能力

l1與l2區別:使用l1可以得到稀疏的權值;用l2可以得到平滑的權值

l1 regularization(往0方向靠)

在原始的代價函式後面加上乙個l1正則化項,即所有權重w的絕對值的和,乘以λ/n(這裡不像l2正則化項那樣,需要再乘以1/2,具體原因上面已經說過。)

同樣先計算導數:

上式中sgn(w)表示w的符號。那麼權重w的更新規則為:

比原始的更新規則多出了η * λ * sgn(w)/n這一項。當w為正時,更新後的w變小。當w為負時,更新後的w變大

因此它的效果就是讓w往0靠,使網路中的權重盡可能為0,也就相當於減小了網路複雜度,防止過擬合。

c0代表原始的代價函式,後面那一項就是l2正則化項,它是這樣來的:所有引數w的平方的和,除以訓練集的樣本大小n。λ就是正則項係數,權衡正則項與c0項的比重。另外還有乙個係數1/2,1/2經常會看到,主要是為了後面求導的結果方便,後面那一項求導會產生乙個2,與1/2相乘剛好湊整。

l2正則化項是怎麼避免overfitting的呢?我們推導一下看看,先求導:

可以發現l2正則化項對b的更新沒有影響,但是對於w的更新有影響.

L1與L2正則化

在機器學習中,我們茶廠聽到l1和l2正則化,用他們來防止過擬合,但是在什麼情況下使用它們和它們的原理是什麼樣的可能一知半解。所以在本部落格中將對l1和l2做簡單的介紹和應用場景。如果引數過多,模型過於複雜,容易造成過擬合 overfit 即模型在訓練樣本資料上表現的很好,但在實際測試樣本上表現的較差...

L1與L2正則化

尊重原創,我沒有改動乙個字。過擬合示意圖 我們知道,過擬合就是所謂的模型對可見的資料過度自信,非常完美的擬合上了這些資料,如果具備過擬合的能力,那麼這個方程就可能是乙個比較複雜的非線性方程 正是因為這裡的 x 3 和 x 2 使得這條虛線能夠被彎來彎去,所以整個模型就會特別努力地去學習作用在 x 3...

L1 與 L2 正則化

參考這篇文章 1.l2 正則化直觀解釋 l2 正則化公式非常簡單,直接在原來的損失函式基礎上加上權重引數的平方和 l ein jw2j l ein jwj2 其中,ein 是未包含正則化項的訓練樣本誤差,是正則化引數,可調。但是正則化項是如何推導的?接下來,我將詳細介紹其中的物理意義。我們知道,正則...