1**.錯誤率**:分類錯誤的樣本佔總樣本的比例。
2.精度:1-錯誤率。
3.誤差:學習器的實際**輸出與樣本的真實輸出之間的差異。
**「訓練誤差」/「經驗誤差」:**學習器在訓練集上的誤差。
「泛化誤差」:學習器在新樣本上的誤差。
實際能做到是使經驗誤差最小化
4.「過擬合」:學習器把訓練樣本學的太好的時候,會將訓練樣本的特點當做所有潛在樣本的一般性質,這樣會導致泛化能力下降。(關鍵)
5.「欠擬合」:學習器對訓練樣本的一般性質尚未學好。
有效的學習演算法必將在有限的多項式時間裡面執行完成,可減小過擬合,過擬合不可避免。(模型選擇)
評估方法:
「測試集」:測試學習器對新樣本的判別能力。
「訓練集」:用來習得到較好的學習器。
訓練集和測試集應當盡可能「互斥」。
6.「留出法」(hold out):效能度量:衡量模型泛化能力的評價標準。
回歸任務:
10.「均方誤差」 :
分類任務:
11.「錯誤率」和「精度」
12.「查準率」,「查全率」和f1:
二分類問題中:
1.真正例tp,假正例fp,真反例tn,假反例fn,
2.「查準率:p=tp/(tp+fp)
3.「查全率r=tp/(tp+fn
4.查準率高時,查全率偏低,查準率低時,查全率偏高。
5.p-r曲線,若乙個學習器的曲線被另乙個學習器的曲線完全「包住」,則說明後者的效能要優於前者。
6.「平衡點」(查準率=查全率)時的取值,高者效能優越。
13.roc(受試者工作特徵)
1.真正例率tpr=tp/(tp+fn)
2.假正例率fpr=fp/(tn+fp)
3.roc曲線,若乙個學習器的曲線被另乙個學習器的曲線完全「包住」,則說明後者的效能要優於前者。(或者比較二者的面積大小)。
14.「代價敏感錯誤率」與「代價曲線」
15.「比較檢驗」 (統計假設檢驗)
「假設檢驗」(對乙個學習器泛化能力的假設進行檢驗):
二項檢驗(單個測試錯誤率)
t -檢驗(多個測試錯誤率檢驗)
「交叉驗證t檢驗」:(兩個學習器測試錯誤率的檢驗)
「mcnemar檢驗」:(兩個學習器)
「fridman檢驗」和「nemenyi後續檢驗」:一組資料多個演算法的比較。
16「偏差」和「方差」:
1.「偏差」:期望輸出與真實標記的差別。度量了學習演算法的期望**與真實結果的偏離程度,就是學習演算法的擬合能力。
2.「方差」:度量了同樣大小的訓練集的變動導致學習能力效能的變化,刻畫了資料擾動所造成的影響。
3.「雜訊」:表達了當前任務上任何學習演算法所達到的期望泛化誤差的下界,就是學習問題本身的難度。
4.**「泛化效能」**是由學習演算法的能力,資料的充分性和學習任務的難度所共同決定的。
5.泛化誤差=偏差+方差+雜訊。
模型評估與模型選擇
模型選擇的目的是使學到的模型對已知資料和未知資料都有較好的 能力,同時又要避免過擬合。所考察的指標主要是模型的訓練誤差及測試誤差,模型的複雜度越高,訓練誤差越小,但測試誤差先減小後增大。訓練誤差和測試誤差隨模型複雜度變化趨勢 過擬合是指模型的複雜度比真模型更高,模型選擇就是選擇測試誤差最小的適當複雜...
模型評估與選擇
錯誤率 分類錯誤的樣本書佔樣本總數的比例 誤差 學習器的實際 輸出與樣本的真實輸出之間的差異 訓練誤差 經驗誤差 學習器在訓練集上的誤差 泛華誤差 在新樣本上的誤差 過擬合 學習器把訓練樣本學的 太好 了,很可能已經把訓練樣本本身的一些特點當作了所有潛在樣本都會具有的一般性質,導致泛華效能下降。欠擬...
模型評估與選擇
1.概念 錯誤率 錯誤分類的樣本數佔樣本總數的比例 精度 1 錯誤率,即正確分類的樣本數佔樣本總數的比例 經驗 訓練 誤差 學習器在訓練集上的誤差 泛化誤差 學習器在新樣本上的誤差 過擬合 學習器在訓練集上效果太好,而在新樣本上的效果較差的現象。模型選擇 不同學習演算法或者相同的學習演算法,當使用不...