學習筆記 機器學習 2 2過擬合和正規化

2021-08-21 14:32:59 字數 2415 閱讀 4638

這是機器學習的第二章第二節:過擬合(overfitting)和正規化(regularization)

通過這一節的學習我們將理解並學會如何對linear regression和logistic regression的cost function進行正規化操作,使其達到更優異的效果(able to generalize to new examples more effective)。更新的函式如下:

函式2.2.1:\(\displaystyle j(\theta) = \frac\sum_^(h_\theta(x^)-y^)^2+\lambda\sum_^\theta_j^2\)

函式2.2.2:\(\displaystyle \theta_j := \theta_j(1-\alpha\frac)-\alpha\frac\sum_^(h_\theta(x^)-y^)x_j^\)

函式2.2.3:\(\displaystyle j(\theta) = -\frac\sum_^[y^\mbox(h_\theta(x))-(1-y^)\mbox(1-h_\theta(x^))]+\frac\sum_^\theta_j^2\)

首先來介紹一下欠擬合(underfitting)和過擬合(overfitting)的概念,如下圖所示:

在課程中我們學習主要學習如何解決overfitting的問題:1、減少features;2、regularization。針對方法1,我們可以通過人工選擇需要的部分features,也可以使用乙個選擇演算法模型;對於方法2,我們可以通過調整一些features的parameter,從而降低其權重。而方法2也是我們這一節要講的內容。

\(\displaystyle \min_\theta \frac\sum_^(h_\theta(x^)-y^)^2\)

接下來我們可以在等式右側繼續加入幾項,如下圖所示:

我們需要求\(j(\theta)\)最小值,因此按照該方法加入項後,\(\theta_3\)和\(\theta_4\)會呈現趨於\(0\)的結果,從而減小了feature\(x_3,x_4\)對cost function產生的影響。將其總結後就變成函式2.2.1:

\(\displaystyle j(\theta) = \frac\sum_^(h_\theta(x^)-y^)^2+\lambda\sum_^\theta_j^2\)

其中,\(\lambda\)稱為正則化引數,即上圖示例中的\(1000\)。需要注意的是,在函式式中,正則化部分對\(\theta_1\)到\(\theta_n\)全部產生作用,\(\theta_0\)除外。同樣對於正則化引數\(\lambda\)的選取也需要有所考慮,當\(\lambda\)過大時,對應\(\theta_1\)到\(\theta_n\)全部趨於\(0\),簡化為乙個常數函式,顯然會產生欠擬合的情況。當\(\lambda=0\)或太小時,我們不難判斷此時正則化效果又變得很弱。我們還發現,式子中用了\(\theta^2\)的形式,這是因為我們希望在cost function中每一項都是正數,從而僅會使其變大。

在了解了cost function之後,我們自然還需要考慮改進後的gradient descent演算法,這是因為在cost function(原函式)中引入了\(\theta_j^2\)項,故在gradient descent function(導函式)中也會存在這一項,其初始變化如下:

\(\displaystyle \theta_j := \theta_j - \alpha\begin\begin\frac\sum_^(h_\theta(x^)-y^)x_j^\end+\frac\theta_j\end\)

將其經過變換後即可得到函式2.2.2:

\(\displaystyle \theta_j := \theta_j(1-\alpha\frac)-\alpha\frac\sum_^(h_\theta(x^)-y^)x_j^\)

其中,\(1-\alpha\frac

以上就是在linear regression下運用regularization後的運算方法。對於logistic regression,我們討論的是將結果分為兩類,我們同樣也需要對擬合結果進行正則化操作,原因如下圖所示:

可以發現,在邏輯回歸模型中,仍然會出現欠擬合和過擬合的情況。我們同樣對該模型的cost function加入正則化對應項,則可得到函式2.2.3:

\(\displaystyle j(\theta) = -\frac\sum_^[y^\mbox(h_\theta(x))-(1-y^)\mbox(1-h_\theta(x^))]+\frac\sum_^\theta_j^2\)

end~

機器學習基礎學習筆記(三)過擬合 欠擬合

以下內容均為https的學習筆記。上節說了經驗風險最小化準則 erm 過擬合與欠擬合理論均與其有關。所得 我們可以將機器學習看作乙個從有限 高維 有雜訊的資料上得到更一般性規律的泛化問題。簡單說 過擬合表現在對訓練資料依賴產生過度自信的效能,但對於測試集則能力不足,是 紙上談兵 根據大數定理可知,當...

機器學習之擬合和過擬合問題

過擬合 當某個模型過度的學習訓練資料中的細節和噪音,以至於模型在新的資料上表現很差,我們稱過擬合發生了,通俗點就是 模型在訓練集中測試的準確度遠遠高於在測試集中的準確度。過擬合問題通常發生在變數特徵過多的時候。這種情況下訓練出的方程總是能很好的擬合訓練資料,也就是說,我們的代價函式可能非常接近於0或...

機器學習過擬合問題

過擬合的定義 在對已知的資料集合進行學習的時候,我們選擇適應度最好的模型最為最終的結果。雖然我們選擇的模型能夠很好的解釋訓練資料集合,但卻不一定能夠很好的解釋測試資料或者其他資料,也就是說這個模型過於精細的刻畫了訓練資料,對於測試資料或者其他新的資料泛華能力不強。發生過擬合的原因 1 使用過於複雜的...