機器學習筆記之模型評估與選擇

2021-08-17 23:12:13 字數 844 閱讀 7722

2.1經驗誤差與過擬合

錯誤率(error rate):分類錯誤的樣本數佔樣本總數的比例

精度(accuracy):1-錯誤率

誤差(error):實際**輸出與樣本的真實輸出之間的差異

訓練誤差/經驗誤差:在訓練集上的誤差

測試誤差/泛化誤差:在新樣本的誤差

過擬合:學習時選擇的模型包含的引數過多,對已知資料**的很好,但對未知資料**的很差,即泛化能力很差。

產生過擬合的原因:學習能力強大。

過擬合無法徹底避免,只能採取措施緩解,或者說減小其風險。

2.2評估方法

對資料集d進行適當處理,產生訓練集s和測試集t。

2.2.1留出法(hold-out)

將資料集d劃分為兩個互斥的集合,盡可能保持資料分布的一致性。

2.2.2交叉驗證法(cross validation)

將資料集d劃分為k個大小相似的互斥子集,每次用k-1個子集的並集作為訓練集,餘下的那個子集作為測試集。

2.2.4調參(parameter tuning)

演算法的引數,稱為超引數,10個以內;模型的引數,數目很多。

2.3效能度量(performance measure)

評估學習器f的效能,把學習器**結果f(x)與真實標記y進行比較。

回歸任務,最常用的是均方誤差。

分類任務,常見的如下:

2.3.1錯誤率與精度

2.3.2查準率與查全率

pr曲線,平衡點bep

2.5偏差與方差

泛化誤差可以分解為偏差、方差、雜訊之和。

偏差刻畫了學習演算法本身的擬合能力;方差刻畫了資料擾動所造成的影響;雜訊刻畫了學習問題本身的難度。

機器學習之模型評估與選擇

分為五部分 1 經驗誤差及過擬合 2 評估方法 3 效能度量 4 比較檢驗 5 偏差與方差。錯誤率 error rate 分類錯誤的樣本數佔總樣本數。精度 accuracy 1 錯誤率。誤差 error 學習器的實際 輸出和樣本的真實輸出的差異。在訓練集上的是訓練誤差,在新樣本上的是泛化誤差。過擬合...

機器學習之模型評估與選擇

1.誤差及擬合 訓練誤差 通過訓練集訓練出的模型,在訓練集上的 輸出與實際值之間的誤差 泛化誤差 模型在測試集上的誤差 訓練集用來訓練模型,測試集用來驗證模型的準確性 一般會把樣本7 3區分成訓練集和測試集,普遍情況下,判斷乙個模型是否優秀,不是看在訓練集上的表現,更多的是看模型在測試集上的表現,即...

機器學習筆記 2 模型評估與選擇之評估方法

理想 通過評估學習器的泛化誤差,選出泛化誤差最小的模型。實際 泛化誤差只能通過測試求得的測試誤差來近似。從總樣本集 d 中產生訓練集 s 和測試集 t,往往有以下三種常見方法 留出法 交叉驗證法 自助法。1.留出法 留出法 直接將資料集 d 劃分為兩個互斥的集合,即 d s 比如上圖,紅色部分為訓練...