吳恩達機器學習筆記 11 應用機器學習的建議

2021-09-08 06:06:10 字數 1099 閱讀 2421

本篇講述了在機器學習應用時,如何進行下一步的優化。如訓練樣本的切分驗證?基於交叉驗證的引數與特徵選擇?在訓練集與驗證集上的學習曲率變化?在高偏差或者高方差時如何進行下一步的優化,增加訓練樣本是否有效?

樣本的切分:首先針對我們的樣本集,選擇其中的70%作為訓練集,訓練模型;選擇其中的30%作為測試集,驗證模型的準確度。當使用交叉驗證時,就不能簡單的把資料集分成兩份了,因為這樣無法同時選擇模型並衡量模型的好壞。因此可以把樣本分成3份,其中60%作為訓練集,20%作為交叉驗證集,20%作為準確率測試集。

通過多項式的維度與訓練集和驗證集的誤差可以畫出上面的圖形。如果多項式維度很低,訓練集和測試集誤差都很大,就叫做高偏差,即欠擬合。如果維度很高,訓練集的誤差很低,但是驗證集誤差很高,就叫做高方差,即過擬合。針對正則化λ也可以用這種方式進行選擇:

當訓練樣本很少時,訓練的模型在訓練集上很容易就擬合出來,所以誤差很小,隨著訓練樣本的增加,誤差也隨之增加;對於驗證集,由於最開始的樣本很少,泛化能力很差,所以誤差很高,隨著樣本的增加,驗證集的效果越來越好。

針對於高偏差的情況,由於多項式維度很低,所以擬合出來的是一條直線。因此隨著樣本的增加,訓練集的誤差也會增加,但是最後會趨於穩定。此時,增加樣本數量並沒有什麼作用。

針對於高方差的情況,增加樣本則會幫助模型擬合的更好。

xingoo 閱讀(

...)

編輯收藏

吳恩達機器學習筆記

為了解決實際生活中的問題,我們通常需要乙個數學模型。比如,小明有乙個房子 他想賣掉房子 為了知道房子的 小明收集了該地區近兩年的房屋交易 他發現房屋 與房屋大小呈正相關,所以他畫了了一幅圖 小明的房屋大小用紅色的 代替。可見和小明房屋一樣大小的房子並不存在,而類似的房屋 又有很大差別,如此小明決定用...

吳恩達機器學習筆記

sigmoid啟用函式 0,1 x 0,y 0.5 tanh啟用函式 1,1 x 0,y 0 relu啟用函式 x 0,y 0 x 0,y x sigmoid啟用函式 除了輸出層是乙個二分類問題基本不會用它。tanh啟用函式 tanh是非常優秀的,幾乎適合所有場合。relu啟用函式 最常用的預設函式...

吳恩達機器學習筆記(1)

1 用來進行資料探勘 2 讓機器進行自我學習 3 能對使用者進行個性化定製的應用程式 4 了解人類大腦的執行機制 arthor samuel的定義 是在沒有對機器進行明確的程式設計的情況下讓機器具有自主學習的能力。學習演算法主要分為兩大類,監督學習演算法和非監督學習演算法。監督學習演算法就是明確告訴...