《機器學習》第二章 模型評估與選擇 筆記1

2021-08-09 05:13:29 字數 1039 閱讀 1953

經驗誤差(empirical error)即訓練誤差(training error):訓練集樣本產生的誤差。

泛化誤差(generalization error): 測試集樣本產生的誤差。

過擬合(overfitting):當學習器把訓練樣本學得「太好」的時候,很可能已經把訓練樣本本身的一些特點當作了所有潛在樣本都會具有的一般性質,這樣就會導致泛化效能下降。

欠擬合(underfitting)

泛化誤差的評估方法:

1留出法

2交叉驗證法/k倍交叉驗證

3自助法

查準率、查全率的效能度量

1平衡點(break-even point)bep

查準率=查全率 時的取值

2f1度量

查準率更重要:在商品推薦系統中,為了盡可能少打擾客戶,更希望推薦內容確實是使用者感興趣的。

查全率更重要:在逃犯資訊檢索系統中,更希望盡可能少漏掉逃犯

比較檢驗

1假設檢驗(二項檢驗、雙邊t檢驗)

2交叉驗證t檢驗

3mcnemar檢驗(2和3檢驗是在乙個資料集上比較兩個演算法的效能)

4friedman檢驗

5nemenyi後續檢驗,進一步區分各演算法

偏差與方差(bias and variance)

西瓜書 第二章模型評估與選擇

錯誤率 a 分類錯誤的樣本個數 m 樣本個數 精度 1 錯誤率 誤差 實際 輸出與樣本的真實輸出之間的差異 訓練誤差 經驗誤差 學習器在訓練集上的誤差 泛化誤差 學習器在新樣本上的誤差 注 我們希望得到泛化誤差小的學習器 過擬合 學習器的學習能力過於強大,把樣本中所包含的不太一般的特性學到了,導致的...

機器學習之一 模型評估與選擇(第一章 第二章)

寫在前面 這個系列是清華大學周志華 機器學習 的學習筆記,向周教授致敬,希望大家去買書。電腦科學如果是研究 演算法 機器學習就是研究 學習演算法 的學問。對於資料 離散值 的學習任務稱為 分類 classification 連續值的學習任務稱為 回歸 regression 學習的得到模型適用於新樣本...

人工智慧學習之路 第二章模型評估與選擇

我們希望找到在新樣本中表現好的學習器,為此,應該從訓練集中盡可能的學到適用與所有潛在樣本的 普遍規律 過擬合是機器學習所面臨的關鍵障礙 對於機器模型的 模型選擇 理想上是通過對候選模型的泛化誤差進行評估,然後選擇泛化誤差最小的模型 但由於我們無法直接獲得泛化誤差,可以通過測試集來測試學習器對新樣本判...