機器學習中正則化項L1和L2的直觀理解

2021-08-20 21:09:46 字數 2299 閱讀 9017

1ℓ1

-norm和ℓ2ℓ2

-norm,中文稱作l1正則化和l2正則化,或者l1範數和l2範數。||

w||1

α||w||1

即為l1正則化項。||

w||2

2α||w||22

即為l2正則化項。

w表示特徵的係數,從上式可以看到正則化項是對係數做了處理(限制)。l1正則化和l2正則化的說明如下:

w中各個元素的絕對值之和,通常表示為||w

||1||w||1

l2正則化是指權值向量w

w中各個元素的平方和然後再求平方根(可以看到ridge回歸的l2正則化項有平方符號),通常表示為||w

||2||w||2

α表示,一些文章也用λ

λ表示。這個係數需要使用者指定。

l2正則化可以防止模型過擬合(overfitting);一定程度上,l1也可以防止過擬合

l約束下求出j0j0

取最小值的解1w1

2w2=|

w1|+

|w2|

l=|w1|+|w2|0j0

l1w2

w1w20j0

的等值線,黑色方形是l

l函式的圖形。在圖中,當j0j0

等值線與l

l圖形首次相交的地方就是最優解。上圖中j0j0

與ll在ll

的乙個頂點處相交,這個頂點就是最優解。注意到這個頂點的值是(w1

,w2)

=(0,

w)(w1,w2)=(0,w)

。可以直觀想象,因為l

l函式有很多『突出的角』(二維情況下四個,多維情況下更多),j0j0

與這些角接觸的機率會遠大於與l

l其它部位接觸的機率,而在這些角上,會有很多權值等於0,這就是為什麼l1正則化可以產生稀疏模型,進而可以用於特徵選擇。

α,可以控制l

l圖形的大小。α

α越小,l

l的圖形越大(上圖中的黑色方框);α

α越大,l

l的圖形就越小,可以小到黑色方框只超出原點範圍一點點,這是最優點的值(w1

,w2)

=(0,

w)(w1,w2)=(0,w)

中的ww

可以取到很小的值。=j

0+α∑

ww2(2)

(2)j=j0+α∑ww20j0

與ll相交時使得w1w1

或w2w2等於零的機率小了許多,這就是為什麼l2正則化不具有稀疏性的原因。θ,h

θ(x)

hθ(x)

是我們的假設函式,那麼線性回歸的代價函式如下: (θ

)=12

m∑i=

1m(h

θ(x(

i))−

y(i)

)2(3)(3)j(θ)=12m∑i=1m(hθ(x(i))−y(i))2θj

:=θj−

α1m∑

i=1m

(hθ(

x(i)

)−y(

i))x

(i)j

(4)(4)θj:=θj−α1m∑i=1m(hθ(x(i))−y(i))xj(i)αj

:=θj(

1−αλ

m)−α

1m∑i

=1m(

hθ(x

(i))

−y(i

))x(

i)j(5)

(5)θj:=θj(1−αλm)−α1m∑i=1m(hθ(x(i))−y(i))xj(i)

λ就是正則化引數jθj

jθjθλ

可以讓代價函式在引數為0時取到最小值。下面是乙個簡單的例子,這個例子來自quora上的問答。為了方便敘述,一些符號跟這篇帖子的符號保持一致。(x

)=f(

x)+λ

||x|

|1f(x)=f(x)+λ||x||1xw

θλ(x

)f(x)=0

x=0=

0.5λ=0.5和λ=

2λ=2

,可以看到越大的λ

λ越容易使f(x

)f(x)在x=

0x=0

時取到最小值。

λ越大,θjθj

衰減得越快。另乙個理解可以參考圖2,λ

λ越大,l2圓的半徑越小,最後求得代價函式最值時各引數也會變得很小。

機器學習中正則化項L1和L2的直觀理解

機器學習中幾乎都可以看到損失函式後面會新增乙個額外項,常用的額外項一般有兩種,一般英文稱作 1 role presentation 1 1 norm,中文稱作l1正則化和l2正則化,或者l1範數和l2範數。l1正則化和l2正則化可以看做是損失函式的懲罰項。所謂 懲罰 是指對損失函式中的某些引數做一些...

機器學習中正則化項L1和L2的直觀理解

在機器學習中,我們非常關心模型的 能力,即模型在新資料上的表現,而不希望過擬合現象的的發生,我們通常使用正則化 regularization 技術來防止過擬合情況。正則化是機器學習中通過顯式的控制模型複雜度來避免模型過擬合 確保泛化能力的一種有效方式。如果將模型原始的假設空間比作 天空 那麼天空飛翔...

機器學習 L1與L2正則化項

題目 關於支援向量機svm,下列說法錯誤的是 a.l2正則項,作用是最大化分類間隔,使得分類器擁有更強的泛化能力 b.hinge 損失函式,作用是最小化經驗分類錯誤 c.分類間隔為1 w w 代表向量的模 d.當引數c越小時,分類間隔越大,分類錯誤越多,趨於欠學習 錯誤 在logistic regr...