ML之模型評估與選擇簡介

2021-08-04 11:58:56 字數 652 閱讀 2063

分類錯誤的樣本數佔樣本總數的比例成為 error rate(錯誤率)

相應的,分類正確的稱為 accuracy(精確度)

對於學習器的實際**輸出和樣本的真實輸出差異稱為 error(誤差)

在講到linear regression的課上,andrew就提出overfitting&&underfitting這兩個concepts。欠擬合比過擬合要容易解決,但是過擬合在於可能把訓練樣本本身的一些特點當作了所有潛在樣本都具有的一般性質,從而導致泛化能力下降。(對於multi-class classification && regression,andrew給出的方法是使用regularization)

因此,我們需要從眾多演算法和引數中挑選出最適合,即model selection(模型學習)。這裡提供一些方法來計算泛化誤差的方法。

通常為了計算泛化誤差,我們準備乙個testing set(測試集),以testing set上的testing error來作為泛化誤差的近似,對於給定的m個樣例的data set(資料集),我們將採用如下方法將測試集分為訓練集s,和測試集t:

對於回歸任務,最常用的performance measure就是mean squared error(均方誤差),即之間講到的cost function,當然performance measure有很多其他的常用:

模型評估與模型選擇

模型選擇的目的是使學到的模型對已知資料和未知資料都有較好的 能力,同時又要避免過擬合。所考察的指標主要是模型的訓練誤差及測試誤差,模型的複雜度越高,訓練誤差越小,但測試誤差先減小後增大。訓練誤差和測試誤差隨模型複雜度變化趨勢 過擬合是指模型的複雜度比真模型更高,模型選擇就是選擇測試誤差最小的適當複雜...

模型評估與選擇

錯誤率 分類錯誤的樣本書佔樣本總數的比例 誤差 學習器的實際 輸出與樣本的真實輸出之間的差異 訓練誤差 經驗誤差 學習器在訓練集上的誤差 泛華誤差 在新樣本上的誤差 過擬合 學習器把訓練樣本學的 太好 了,很可能已經把訓練樣本本身的一些特點當作了所有潛在樣本都會具有的一般性質,導致泛華效能下降。欠擬...

模型評估與選擇

1.概念 錯誤率 錯誤分類的樣本數佔樣本總數的比例 精度 1 錯誤率,即正確分類的樣本數佔樣本總數的比例 經驗 訓練 誤差 學習器在訓練集上的誤差 泛化誤差 學習器在新樣本上的誤差 過擬合 學習器在訓練集上效果太好,而在新樣本上的效果較差的現象。模型選擇 不同學習演算法或者相同的學習演算法,當使用不...