設p
⩾1的實
數,p−
norm
定義為:
||x||:=(
∑i=1
n|xi
|p)1
p(1.1)
![這裡寫描述](
如果方陣a是非奇異的,那麼a的conditio nnumber定義為:機器學習目標函式的一般形式: loκ(a)=||
a|||
|a−1
||condition number是乙個矩陣穩定性或者敏感度的度量。
矩陣的condition number在1附近,那麼它就是well-conditioned的;
如果遠大於1,那麼它就是ill-conditioned的。
如果乙個系統是ill-conditioned的它的輸出結果就不太可信。
ss(x
,y)=
erro
r(x,
y)+α
||w|
| la
sso:
minw
1n||
y−xw
||2,
s.t.
||w|
|1≤c
ridge:m
inw1
n||y
−xw|
|2,s
.t.|
|w||
2≤c
為了便於視覺化,我們考慮兩維的情況,在(w1, w2)平面上可以畫出目標函式的等高線,而約束條件則成為平面上半徑為c的乙個 norm ball 。等高線與 norm ball 首次相交的地方就是最優解。
可以看到,l1-ball 與l2-ball 的不同就在於l1在和每個座標軸相交的地方都有「角」出現,而目標函式的測地線除非位置擺得非常好,大部分時候都會在角的地方相交。注意到在角的位置就會產生稀疏性,例如圖中的相交點就有w1=0,而更高維的時候(想象一下三維的l1-ball 是什麼樣的?)除了角點以外,還有很多邊的輪廓也是既有很大的概率成為第一次相交的地方,又會產生稀疏性。
相比之下,l2-ball 就沒有這樣的性質,因為沒有角,所以第一次相交的地方出現在具有稀疏性的位置的概率就變得非常小了。這就從直觀上來解釋了為什麼l1-regularization 能產生稀疏性,而l2-regularization 不行的原因了。
l1會趨向於產生少量的特徵,而其他的特徵都是0,常用於特徵選擇對於而l2會選擇更多的特徵,這些特徵都會向0的方向收縮,l2正則可防止過擬合。
邏輯回歸
,不進行
正則化,
損失函式
及θ迭代
公式為 : j(
θ)=−
1m(∑
i=1m
(y(i
)log
(hθ(
x(i)
))+(
1−y(
i))l
og(1
−hθ(
x(i)
)))
θj:=θ
j+αm
∑i=1
m(y(
i)−h
θ(x(
i))x
(i)j
矩陣表達為: w^
=(xt
x)−1
xty
對於邏輯
回歸,l
2正則化
之後,損
失函式及
θ迭代公
式為: j(θ
)=−1
m(∑i
=1m(
y(i)
log(
hθ(x
(i))
)+(1
−y(i
))lo
g(1−
hθ(x
(i))
))+λ
2m∑j
=1nθ
2 θj
:=θj+
αm(∑
i=1m
(y(i
)−hθ
(x(i
))x(
i)j)
−αλm
θj(j
=1,.
..,n
) 其矩陣形式為: w⋆
=(xt
x+λi
)−1x
ty改善了condition number,從而可以直接求逆。
注:下角標指
示列索引
,上角標
指示行索
引;m為
行數即個
體數目,
n為列數
目即引數
θ個數。
機器學習 正則化
為了增加模型的泛化能力,避免模型出現過擬合的現象,我們經常會加入正則化處理 當模型偏差較低,但是方差很大,尤其在輸入的維數較高時,很容易出現過擬合現象,當加入正則項,模型損失了一部分偏差,卻大大降低了模型的方差 l1和l2正則是我們經常用到的方法。l1正則 這種方法的結果會讓引數向量中許多元素趨於0...
機器學習正則化
正則化項可以是模型引數向量的範數 首先,範數是指推廣到高維空間中的模,給定向量x x1,x2,x3,xn 常用的向量的範數如下 l0範數 向量非零元素的個數 l1範數 向量各個元素絕對值之和 l2範數 向量各個元素的平方和然後求平方根 lp範數 向量各個元素絕對值的p次方求和然後求1 p次方 l正則...
機器學習正則化
機器學習正則化筆記概要 正則化 regularization 是用於抑制過擬合的方法的統稱,它通過動態調整估計引數的取值來降低模型的複雜度,以偏差的增加為代價來換取方差的下降。總結起來 利用貝葉斯概率來確定最優引數的步驟可以歸納如下 求解的物件是已知訓練資料時,測試資料的條件概率 p y y 要計算...