正則化 機器學習系列9 正則化

2021-10-12 21:20:09 字數 1291 閱讀 2976

機器學習系列9:正則化

在介紹正則化之前,我們先來介紹一下什麼是欠擬合和過擬合問題。

欠擬合和過擬合

發現擬合地並不是很好,我們稱它為欠擬合。當我們用二次多項式去擬合時:

我們發現這個擬合的剛剛好。

當我們用高次多項式去擬合時:

發現這個函式影象異常扭曲,雖然資料集全部擬合到影象上了,但是這個函式並不能很好地去**你想要的結果。我們稱這種現象叫過擬合。

對於欠擬合,我們可以增加函式的多項式的次數,但是對於過擬合來說,我們該如何解決這個問題呢?

有兩種方法去解決過擬合的問題:

1.減少特徵變數的數目:

· 手動選擇哪個特徵變數要捨棄 ;

· 模型選擇演算法。

2.正則化:

· 保留所有的特徵變數,但是減小量級或引數 θ_ j 的大小。

· 當訓練集有許多有用的特徵變數時正則化處理會很好。

那麼如何進行正則化呢?

正則化在過擬合問題中,每個特徵變數可能都對結果產生影響,例如**房價,現在有很多特徵變數:大小,樓層,臥室數目等等……。這些特徵都會對房價的最終結果產生影響,雖然有些特徵產生的影響很小,但是要想結果**準確,我們需要保留所有特徵變數,這時候我們就要考慮代價函式。

線性回歸的代價函式為:

觀察我們訓練的模型對資料集擬合的好不好,就要讓代價函式最小,同時為了保留所有的特徵,那麼就可以給引數 θ 增加乙個大的懲罰,例如:

這樣要使代價函式最小,引數 θ_3 和 θ_4 就應該很小,因為它們的懲罰很大。當引數 θ_3 和 θ_4 很小時,在多項式中它們所在的那些項對整體影響就很小了。這種方法就是正則化(regularization)解決過擬合問題。

要想正則化所有的引數,就可以按照下列公式:

其中 λ 又稱正則化引數(regularization parameter),它的目標是平衡更好地擬合資料和保持引數盡量最小這兩者之間的關係。

機器學習正則化

設p 1的實 數,p norm 定義為 x i 1 n xi p 1 p 1.1 這裡寫描述 如果方陣a是非奇異的,那麼a的conditio nnumber定義為 a a a 1 condition number是乙個矩陣穩定性或者敏感度的度量。矩陣的condition number在1附近,那麼它...

機器學習 正則化

為了增加模型的泛化能力,避免模型出現過擬合的現象,我們經常會加入正則化處理 當模型偏差較低,但是方差很大,尤其在輸入的維數較高時,很容易出現過擬合現象,當加入正則項,模型損失了一部分偏差,卻大大降低了模型的方差 l1和l2正則是我們經常用到的方法。l1正則 這種方法的結果會讓引數向量中許多元素趨於0...

機器學習正則化

正則化項可以是模型引數向量的範數 首先,範數是指推廣到高維空間中的模,給定向量x x1,x2,x3,xn 常用的向量的範數如下 l0範數 向量非零元素的個數 l1範數 向量各個元素絕對值之和 l2範數 向量各個元素的平方和然後求平方根 lp範數 向量各個元素絕對值的p次方求和然後求1 p次方 l正則...