很多接觸過機器學習的同學的人都聽過正則化是為了防止過擬合,很簡單啊,不就是: l(
w)=1
2∑i=
1n(y
i−wx
i)2+
λ||w
||22
(2) (2)l(
w)=1
2∑i=
1n(y
i−wx
i)2+
λ||w
||22
重寫了損失函式,加入的後半部分是正則化項,整個損失函式的目的直觀上理解是既要讓模型擬合訓練樣本,又要防止模型過於複雜出現正則化。
正則化講到這裡就可以結束了,可以拿去用了。但是,這裡面也是有的門道的。
話說統計學有兩大門派,乙個喚作頻率學派,乙個喚作貝葉斯學派。這兩個學派相愛相殺的故事這裡就不展開。跟我們這一章有關係的是,頻率學派認為,模型引數的固定的,這是目前未知而已。我們的任務就是從固定但未知的模型引數隨機生出的訓練樣本中估計出引數。而貝葉斯學派認為,豈止樣本是隨機變數,連模型引數都是服從某種分布的隨機變數!這個就6了。既然引數也是服從某種分布的隨機變數。那我們在估計模型的時候,就要將引數的概率函式考慮進去,我們假設引數服從標準正太分布: p(
w)=∏
jn(w
j|0,
τ2) p(w
)=∏j
n(wj
|0,τ
2)
相應的最大後驗概率估計(map,此時就不是mle了)變成了: ar
gmax
wlog(∏
i=1n
n(yi
|wtx
i,σ2
)p(w
))=∑
i=1n
logn
(yi|
wtxi
,σ2)
+∑jl
ogn(
wj|0
,τ2)
a rg
maxw
log(∏
i=1n
n(yi
|wtx
i,σ2
)p(w
))=∑
i=1n
logn
(yi|
wtxi
,σ2)
+∑jl
ogn(
wj|0
,τ2)
大家講後半部分推算下來就能得到我們的正則化項了 ,對,就是這麼神奇!
再告訴大家乙個秘密,如果我們假設引數服從拉普拉斯分布,我們將得到另一種正則化項,l1範數,不信你試試!
機器學習 正則化 回歸與分類辨析
這篇文章是對自己早期一篇講正則化和回歸的補充。當時寫作那篇文章的時候自己還剛剛入門機器學習,許多知識是理解了,但是缺少從一定的高度上的總結。結合這篇來看原來的那篇,不容易亂。首先要明確,正則化不是回歸的專利,回歸和分類都是可以使用的。在回歸中使用正則化就是嶺回歸 l2正則化 和lasso l1正則化...
機器學習4 邏輯回歸與線性回歸
1 model 2 loss function 線性回歸損失函式由均方差來衡量 邏輯回歸由交叉熵衡量。邏輯回歸的loss function由training data來決定,模型需確保training data分類正確率最大,假設training data為 求上述概率公式最大化即可得到模型引數。這...
機器學習 線性回歸
可以說基本上是機器學習中最簡單的模型了,但是實際上其地位很重要 計算簡單 效果不錯,在很多其他演算法中也可以看到用lr作為一部分 先來看乙個小例子,給乙個 線性回歸是什麼 的概念。圖來自 2 假設有乙個房屋銷售的資料如下 面積 m 2 銷售價錢 萬元 123 250 150 320 87 160 1...