過擬合與正則化

機器學習中經常遇到所謂的過擬合（overfitting）問題。所謂的過擬合問題, 是指某個模型在訓練資料上能夠獲得比其他模型更好的擬合，但是在訓練資料外的資料集上卻不能很好的擬合。其本質是，模型對於隨機錯誤或者雜訊的刻畫超過其對於真實資訊的刻畫。而出現這種現象的主要原因是訓練資料中存在噪音或者訓練資料太少。

所謂的正則化，是一種數學方法。它通過在模型中新增針對模型複雜度或者極端引數值的懲罰項來減少模型的過擬合程度。正則化方法可以應用於不同的模型中，包括線性回歸、邏輯回歸、支援向量機等等。

以線性回歸為例，正則化的形式可表示為中的第二項。它其實是模型中各係數的平方和乘以引數

λ 。l(

θ)=1

2m[∑

i=1m

(hθ(

x(i)

−y(i

))2)

+λ∑j

=1nθ

2j](1-1)

引數lamdda的選擇對於模型的效能至關重要：lamda的值過小，將導致正則化的作用微乎其微；lamda的值過大，將導致模型丟失有用的資訊，出現所謂的欠擬合。交叉驗證通常是確定lamda的值的最直接方法之一。

式所示的即為l2正則。而l2正則化又被成為ridge regularizer。它將視為懲罰物件。

將模型各係數絕對值的加和視為懲罰物件，被成為l1正則化。

l2正則化認為特徵的權重的先驗分布是乙個0附近的高斯分布

l1正則化認為特徵的權重的先驗分布是乙個0附近的拉普拉斯分布

下圖反映了無正則化、l2正則化和l1正則化對於模型係數的影響。

過擬合與正則化

正則化 Dropout 與過擬合

過擬合欠擬合正則化

正則化防止過擬合

過擬合與正則化

正則化 Dropout 與過擬合

過擬合 欠擬合 正則化

正則化防止過擬合

相關推薦

過擬合欠擬合正則化