1ℓ1
-norm和ℓ2ℓ2
-norm,中文稱作l1正則化和l2正則化,或者l1範數和l2範數。||
w||1
α||w||1
即為l1正則化項。||
w||2
2α||w||22
即為l2正則化項。
w表示特徵的係數,從上式可以看到正則化項是對係數做了處理(限制)。l1正則化和l2正則化的說明如下:
w中各個元素的絕對值之和,通常表示為||w
||1||w||1
l2正則化是指權值向量w
w中各個元素的平方和然後再求平方根(可以看到ridge回歸的l2正則化項有平方符號),通常表示為||w
||2||w||2
α表示,一些文章也用λ
λ表示。這個係數需要使用者指定。
l2正則化可以防止模型過擬合(overfitting);一定程度上,l1也可以防止過擬合
l約束下求出j0j0
取最小值的解1w1
2w2=|
w1|+
|w2|
l=|w1|+|w2|0j0
l1w2
w1w20j0
的等值線,黑色方形是l
l函式的圖形。在圖中,當j0j0
等值線與l
l圖形首次相交的地方就是最優解。上圖中j0j0
與ll在ll
的乙個頂點處相交,這個頂點就是最優解。注意到這個頂點的值是(w1
,w2)
=(0,
w)(w1,w2)=(0,w)
。可以直觀想象,因為l
l函式有很多『突出的角』(二維情況下四個,多維情況下更多),j0j0
與這些角接觸的機率會遠大於與l
l其它部位接觸的機率,而在這些角上,會有很多權值等於0,這就是為什麼l1正則化可以產生稀疏模型,進而可以用於特徵選擇。
α,可以控制l
l圖形的大小。α
α越小,l
l的圖形越大(上圖中的黑色方框);α
α越大,l
l的圖形就越小,可以小到黑色方框只超出原點範圍一點點,這是最優點的值(w1
,w2)
=(0,
w)(w1,w2)=(0,w)
中的ww
可以取到很小的值。=j
0+α∑
ww2(2)
(2)j=j0+α∑ww20j0
與ll相交時使得w1w1
或w2w2等於零的機率小了許多,這就是為什麼l2正則化不具有稀疏性的原因。θ,h
θ(x)
hθ(x)
是我們的假設函式,那麼線性回歸的代價函式如下: (θ
)=12
m∑i=
1m(h
θ(x(
i))−
y(i)
)2(3)(3)j(θ)=12m∑i=1m(hθ(x(i))−y(i))2θj
:=θj−
α1m∑
i=1m
(hθ(
x(i)
)−y(
i))x
(i)j
(4)(4)θj:=θj−α1m∑i=1m(hθ(x(i))−y(i))xj(i)αj
:=θj(
1−αλ
m)−α
1m∑i
=1m(
hθ(x
(i))
−y(i
))x(
i)j(5)
(5)θj:=θj(1−αλm)−α1m∑i=1m(hθ(x(i))−y(i))xj(i)
λ就是正則化引數jθj
jθjθλ
可以讓代價函式在引數為0時取到最小值。下面是乙個簡單的例子,這個例子來自quora上的問答。為了方便敘述,一些符號跟這篇帖子的符號保持一致。(x
)=f(
x)+λ
||x|
|1f(x)=f(x)+λ||x||1xw
θλ(x
)f(x)=0
x=0=
0.5λ=0.5和λ=
2λ=2
,可以看到越大的λ
λ越容易使f(x
)f(x)在x=
0x=0
時取到最小值。
λ越大,θjθj
衰減得越快。另乙個理解可以參考圖2,λ
λ越大,l2圓的半徑越小,最後求得代價函式最值時各引數也會變得很小。
機器學習中正則化項L1和L2的直觀理解
機器學習中幾乎都可以看到損失函式後面會新增乙個額外項,常用的額外項一般有兩種,一般英文稱作 1 role presentation 1 1 norm,中文稱作l1正則化和l2正則化,或者l1範數和l2範數。l1正則化和l2正則化可以看做是損失函式的懲罰項。所謂 懲罰 是指對損失函式中的某些引數做一些...
機器學習中正則化項L1和L2的直觀理解
在機器學習中,我們非常關心模型的 能力,即模型在新資料上的表現,而不希望過擬合現象的的發生,我們通常使用正則化 regularization 技術來防止過擬合情況。正則化是機器學習中通過顯式的控制模型複雜度來避免模型過擬合 確保泛化能力的一種有效方式。如果將模型原始的假設空間比作 天空 那麼天空飛翔...
機器學習 L1與L2正則化項
題目 關於支援向量機svm,下列說法錯誤的是 a.l2正則項,作用是最大化分類間隔,使得分類器擁有更強的泛化能力 b.hinge 損失函式,作用是最小化經驗分類錯誤 c.分類間隔為1 w w 代表向量的模 d.當引數c越小時,分類間隔越大,分類錯誤越多,趨於欠學習 錯誤 在logistic regr...