邏輯如下:
泛化誤差能夠衡量乙個模型的效能好壞、泛化能力。但是,泛化誤差不能直接獲得。
模型的評估方法
怎麼辦?採用測試集。使用測試誤差近似泛化誤差。要求測試集盡可能於訓練集互斥。
接下來就是,如何將資料集劃分為訓練集和測試集。
測試集:用於近似評估模型的泛化能力。
驗證集:模型選擇和調參。
既然有測試集去近似估計模型的泛化能力,那麼,評估方法有哪些?
比較檢驗
通過效能度量,怎麼對這些結果進行比較?比較大小嗎?不。
原因有三:
1、我們希望比較的是泛化效能,但是通過實驗評估得到的是在測試集上的效能,兩者的對比結果可能不一樣。【近似最多只能是近似,和groud truth還是有很大差距的。】
2、測試集的鍋。我們選擇的測試集存在多樣性:如不同大小的測試集以及測試集中測試用例的差異。
3、學習演算法的鍋。學習演算法本身具有隨機性。這樣的演算法在同乙個測試集上,不同次執行得到的結果可能不同。
那怎麼辦?統計假設檢驗(hypothesis test)為我們進行學習器效能比較提供了重要依據。
西瓜書筆記 模型評估與選擇
錯誤率 分類錯誤的樣本數佔樣本總數的比例 精度 1 錯誤率 訓練誤差 經驗誤差 學習器在訓練集上的誤差 泛化誤差 學習器訓練之後,在新樣本上的誤差 過擬合 學習器把訓練樣本學習的 過好 導致泛化能力下降。欠擬合 學習器尚未學好訓練樣本的一般性質。以下四種方法可以有效地從乙個資料集中分出訓練集 s 和...
西瓜書 第二章模型評估與選擇
錯誤率 a 分類錯誤的樣本個數 m 樣本個數 精度 1 錯誤率 誤差 實際 輸出與樣本的真實輸出之間的差異 訓練誤差 經驗誤差 學習器在訓練集上的誤差 泛化誤差 學習器在新樣本上的誤差 注 我們希望得到泛化誤差小的學習器 過擬合 學習器的學習能力過於強大,把樣本中所包含的不太一般的特性學到了,導致的...
模型評估和選擇
可用模型很多 不同的演算法產生不同的模型,相同的演算法用不同的引數也產生不同的模型。怎麼選?使用訓練誤差最小的那個模型?顯然不行,過擬合問題。模型選擇涉及兩個問題 一是評估方案的實驗設計問題,這方面主要是如何從已有資料中分離出測試資料集,二是評估度量問題,即各種指標,諸如rmse,精度等。理想方案 ...