模型選擇的目的是使學到的模型對已知資料和未知資料都有較好的**能力,同時又要避免過擬合。所考察的指標主要是模型的訓練誤差及測試誤差,模型的複雜度越高,訓練誤差越小,但測試誤差先減小後增大。
訓練誤差和測試誤差隨模型複雜度變化趨勢
過擬合是指模型的複雜度比真模型更高,模型選擇就是選擇測試誤差最小的適當複雜度的模型,即複雜度要求最接近真模型。但往往並不知道真模型的複雜度,這時可以採用奧卡姆剃刀原理,即在所有可能的模型中,選擇能夠很好地解釋已知資料並且十分簡單的模型。
避免過擬合的一種方式是正則化,即在風險函式中加入關於模型複雜度的懲罰項,又稱為結構風險最小化策略的實現。模型越複雜,懲罰項越大。正則化的作用就是選擇經驗風險和模型複雜度同時較小的模型。
交叉驗證是為了提高模型**穩定性的一種策略,分為簡單交叉驗證、s折交叉驗證、留一交叉驗證。
評價分類器效能的指標:
模型評估與選擇
錯誤率 分類錯誤的樣本書佔樣本總數的比例 誤差 學習器的實際 輸出與樣本的真實輸出之間的差異 訓練誤差 經驗誤差 學習器在訓練集上的誤差 泛華誤差 在新樣本上的誤差 過擬合 學習器把訓練樣本學的 太好 了,很可能已經把訓練樣本本身的一些特點當作了所有潛在樣本都會具有的一般性質,導致泛華效能下降。欠擬...
模型評估與選擇
1.概念 錯誤率 錯誤分類的樣本數佔樣本總數的比例 精度 1 錯誤率,即正確分類的樣本數佔樣本總數的比例 經驗 訓練 誤差 學習器在訓練集上的誤差 泛化誤差 學習器在新樣本上的誤差 過擬合 學習器在訓練集上效果太好,而在新樣本上的效果較差的現象。模型選擇 不同學習演算法或者相同的學習演算法,當使用不...
模型評估與選擇
當我們有一堆模型,哪個是最好的呢?一 定義 錯誤率精度 是不是就是正確率?誤差訓練誤差 經驗誤差 泛化誤差 二 過擬合與欠擬合 過擬合 學到了過多東西,那些特徵並不是正確的。欠擬合 有些特徵沒有學到 過擬合 比較難解決 欠擬合 比較好解決,比如決策樹中擴充套件分支 神經網路中增加訓練輪數 怎樣評價乙...