模型評估和選擇

2022-09-13 14:42:20 字數 753 閱讀 4106

可用模型很多:不同的演算法產生不同的模型,相同的演算法用不同的引數也產生不同的模型。

怎麼選?使用訓練誤差最小的那個模型?顯然不行,過擬合問題。

模型選擇涉及兩個問題:一是評估方案的實驗設計問題,這方面主要是如何從已有資料中分離出測試資料集,二是評估度量問題,即各種指標,諸如rmse,精度等。

理想方案:選擇乙個泛化誤差最小的模型。

問題:無法獲得未知的新樣本,無法直接得到泛化誤差

解決方案:設計實驗,使用測試集

使用測試集,用測試集上的誤差來作為泛化誤差的近似

假設測試集是所有樣本的獨立同分布

準備測試集的注意事項:

要與訓練集互斥,測試資料不要再訓練資料**現過

為什麼?老師出了10道題目給學生練習,為了考察學生的掌握程度,考試的時候還要這個10到題目嗎?

實際應用中,模型的選擇不僅要考慮誤差,還要考慮計算時間、空間開銷和可解釋性等多方面的問題。

測試集的產生方法

留出法:需要注意的三個問題:

1. 保持訓練集和測試集分布一致性:採用分層抽樣

2. 訓練/測試集劃分有不同的方式,可用多次劃分,取測試集誤差平均值作為泛化誤差

3. 測試集劃分的不能太多,太多導致訓練資料太少,訓練模型不可靠(偏差大);測試資料劃分的太少也不行,太少導致評估結果不可靠(方差大),常用1/3或1/5作為測試資料

交叉驗證

自助法:對m個樣本資料,有放回的進行抽樣,抽取m個樣本當作訓練資料,沒有被抽到的樣本當作測試資料。適用於資料量比較小的時候。

模型評估與模型選擇

模型選擇的目的是使學到的模型對已知資料和未知資料都有較好的 能力,同時又要避免過擬合。所考察的指標主要是模型的訓練誤差及測試誤差,模型的複雜度越高,訓練誤差越小,但測試誤差先減小後增大。訓練誤差和測試誤差隨模型複雜度變化趨勢 過擬合是指模型的複雜度比真模型更高,模型選擇就是選擇測試誤差最小的適當複雜...

模型評估與選擇

錯誤率 分類錯誤的樣本書佔樣本總數的比例 誤差 學習器的實際 輸出與樣本的真實輸出之間的差異 訓練誤差 經驗誤差 學習器在訓練集上的誤差 泛華誤差 在新樣本上的誤差 過擬合 學習器把訓練樣本學的 太好 了,很可能已經把訓練樣本本身的一些特點當作了所有潛在樣本都會具有的一般性質,導致泛華效能下降。欠擬...

模型評估與選擇

1.概念 錯誤率 錯誤分類的樣本數佔樣本總數的比例 精度 1 錯誤率,即正確分類的樣本數佔樣本總數的比例 經驗 訓練 誤差 學習器在訓練集上的誤差 泛化誤差 學習器在新樣本上的誤差 過擬合 學習器在訓練集上效果太好,而在新樣本上的效果較差的現象。模型選擇 不同學習演算法或者相同的學習演算法,當使用不...