機器學習之模型選擇(交叉驗證)

2021-07-04 18:51:34 字數 750 閱讀 9846

問題

交叉驗證(cross validation)

1、 使用s 來訓練每乙個mi,訓練出引數後,也就可以得到假設函式hi。(比如,線性模型

中得到w後,也就得到了假設函式ℎ(w).

2、 選擇錯誤率最小的假設函式。

1、 從全部的訓練資料s 中隨機選擇70%的樣例作為訓練集strain,剩餘的30%作為測試集

scv。

2、 在strain上訓練每乙個mi,得到假設函式hi。

3、 在scv上測試每乙個hi,得到相應的經驗錯誤e^scv(hi).

4、 選擇具有最小經驗錯誤e^scv(hi)的hi作為最佳模型。

1、 將全部訓練集s分成k個不相交的子集,假設s中的訓練樣例個數為m,那麼每乙個子

集有m/k個訓練樣例,相應的子集稱作。

2、 每次從模型集合m中拿出來乙個mi,然後在訓練子集中選擇出k-1 個

(也就是每次只留下乙個sj),使用這k-1 個子集訓練mi後,得到假設函式hij。最後使用剩下的乙份sj作測試,得到經驗錯誤e^sj(hij).

3、由於我們每次留下乙個sj(j 從1 到k),因此會得到k 個經驗錯誤,那麼對於乙個mi,

它的經驗錯誤是這k 個經驗錯誤的平均。

4、 選出平均經驗錯誤率最小的mi,然後使用全部的s 再做一次訓練,得到最後的hi。

機器學習模型選擇與驗證

k折交叉驗證 在不浪費太多資料的情況下,精確估計真實誤差而設計的,在k折交叉驗證中,將原訓練集拆分為樣本數量為m k的k折樣本集 這裡假定m k為一整數 對於每一折資料樣本,這個演算法是在其他折樣本的聯合樣本上訓練,然後由這一折樣本上估計出輸出的誤差。最終,所有誤差的平均即為真實誤差的估計。特殊情形...

機器學習 交叉驗證

假設我們需要從某些候選模型中選擇最適合某個學習問題的模型,我們該如何選擇?以多元回歸模型為例 我們假設模型集合為有限集 假設樣本集為s,根據經驗風險最小化原則 erm 可能會使用這樣的演算法 1.在s上訓練每個模型 2.選擇訓練誤差最小的假設函式,即為我們需要的函式。然而,這樣的演算法實際上並不有效...

機器學習 交叉驗證

交叉驗證是最好的測試方法 乙個問題叫做交叉驗證,是指假設要將乙份資料拆分成訓練集和測試集,這個時候怎麼評估出它的誤差?交叉驗證是把集合拆成五份,取四份做訓練集 乙份做測試集,並且每次選擇不同的那乙份做測試級,最後測出五個結果再做平均,這被認為是最好的測試方法。交叉驗證確實是乙個還不錯的驗證的方法,但...