正則化解決過擬合問題

2022-06-07 17:54:09 字數 1850 閱讀 1244

目錄所謂正則化是在代價函式的基礎上進行的

為了使costfunction盡快的取得最小值

當引數過多時,會存在過擬合現象,假如我們在損失函式中加入一項作為懲罰,如加入\(1000 \theta_^\),當引數\(\theta_\)過大時,會使得損失函式變大,而我們的目標是損失函式最小化,因此,會迫使引數值變小,當但數值值趨近於0時,近似於新加入的項入\(1000 \theta_^\)趨近於0,相當於去掉這一項,此時,模型又近似於二次函式形式。解決了過擬合問題。

感覺確實很不錯的

當引數很多時,無法確定那些引數對模型影響大,哪些影響較小。無法對引數進行選擇約束。因此,我們就從整體上對引數進行約束,加入上圖紫色的正則項,對除\theta _ 以外的所有引數進行約束。\lambda 為正則引數。

加入正則項之後的損失函式

\(j(\theta)=\frac\left[\sum_^\left(h_\left(x^\right)-y^\right)^+\lambda \sum_^ \theta_^\right]\)

當正則引數取值較大時,懲罰作用較大,會使得所有引數的取值近似於0,此時,會使得假設模型中引數項以外的項趨近於0,假設模型近似於一條直線,造成欠擬合。

\(j(\theta)=\frac\left[\sum_^\left(h_\left(x^\right)-y^\right)^+\lambda \sum_^ \theta_^\right]\)

加入正則項以後,目標依舊是找到最小化損失函式對應的引數值。通常有兩種方法,梯度下降與正規方程

在正則化損失函式中,梯度下降的原理與線性回歸中一樣,只是在迭代過程中將\(\theta_\)單獨分列出來,因為在正則化過程中只對\(\theta_-\theta_\)進行懲罰。在對\(\theta_-\theta_\)進行梯度下降時,加入正則項。化簡後的梯度下降迭代公式如上圖最後乙個公式所示,第一項中的(\(1-\alpha \frac\))是乙個略小於1的數,假設為0.99,第二項與原梯度下降公式相同,因此,在進行每次迭代時,都是將原引數乘以0.99,每次迭代將引數縮小一點。

損失函式

在正則化的logistic回歸模型中進行梯度下降的方式與線性回歸中的方式相似,上圖方括號中的式子為正則化後的損失函式。但是這裡對\(h_ (x)\)的定義與線性回歸中的不同,這裡表示的是乙個sigmoid函式。

高階優化演算法

略,等我學通到補充

可以參考這個非常的通俗易懂機器學習中的正則化到底是什麼

解決過擬合

獲取和使用更多的資料集 對於解決過擬合的辦法就是給與足夠多的資料集,讓模型在更可能多的資料上進行 觀察 和擬合,從而不斷修正自己。然而事實上,收集無限多的資料集幾乎是不可能的,因此乙個常用的辦法就是調整已有的資料,新增大量的 噪音 或者對影象進行銳化 旋轉 明暗度調整等優化。另外補充一句,cnn在影...

避免過擬合問題 正則化

正則化思想 在損失函式中加入刻畫模型複雜度的指標。優化物件 j r w 其中 j 代表損失函式 代表模型複雜損失在總損失中的比例 r w 代表模型的複雜程度。刻畫模型複雜程度的函式 1.l1正則化 2.l2正則化 原則 通過限制權重的大小,使得模型不能任意擬合訓練資料中的隨機噪音。例子 import...

防止過擬合以及解決過擬合

過擬合 為了得到一致假設而使假設變得過度複雜稱為過擬合。乙個過配的模型試圖連誤差 噪音 都去解釋 而實際上噪音又是不需要解釋的 導致泛化能力比較差,顯然就過猶不及了。這句話很好的詮釋了過擬合產生的原因,但我認為這只是一部分原因,另乙個原因是模型本身並不能很好地解釋 匹配 資料,也就是說觀測到的資料並...