m個樣本中有a個分類錯誤,則錯誤率e=a/m;
1-a/m;
實際**輸出與樣本真實輸出之間的差異稱為誤差,學習器在訓練集上的誤差稱為『訓練誤差』或者『經驗誤差』,在新樣本上的誤差稱為『泛化誤差』(generalization error)。
顯然我們希望得到泛化誤差小的機器。
過擬合:學習器把訓練樣本學的太好,很可能把訓練樣本本身的特點當做了所有潛在樣本都具有的一般性質,這樣會導致泛化效能下降,這種現象稱為『過擬合』。
欠擬合:這是指對一般性質都沒有學好。
造成過擬合原因:學習能力強,連樣本所包含的不一般的特性都學習到了,而欠擬合是由於學習能力低造成的。欠擬合比較容易克服,如在決策樹學習中擴充套件分支、在神經網路學習中增加訓練輪數。
分層取樣,部分比例做訓練集/剩餘測試集
將資料集劃分為k個大小相似的互斥子集。每個子集盡可能保持資料分布的一致性。每次用k-1個子集的並集作為訓練集,餘下那個子集作為測試集。這樣獲得k組訓練/測試集。最終返回均值。
交叉驗證法評估結構的穩定性和保真性在很大程度上取決於k的均值,通常把交叉驗證法稱為k折交叉驗證。
在留出法和交叉驗證法中,由於保留一部分樣本用於測試,因此實際評估的模型比所要使用的訓練集d小,會引入一些因訓練樣本規模不同而導致的估計偏差。自助法是比較好的解決方案。
給定m個樣本資料集,
在某些情況下,對查準率和查全率的重試程度不同。在商品推薦系統中,為了盡可能少打擾使用者,更希望推薦內容是使用者感興趣的,此時查準率更重要。而在逃犯資訊檢索系統中,更希望盡可能減少漏掉逃犯,此時查準確更重要。
基於查準率與查全率的調和平均(harmonic mean)定義的
1f
1=12
∗(1p
+1r)
加權調和平均
1f
β=11
+β2∗
(1p+
β2r)
其中β>0度量了查全率對查準率的相對重要性。β=1退化為標準的f1;β>1時查全率有更大影響,β<1時查準率有更大影響。
與算數平均p+
r2和幾何平均p∗
r‾‾‾
‾‾√ 相比,調和平均更重視較小值。
1.先在各混淆矩陣上分別計算出查準率和查全率,記為(p1,r1)(p2,r2)…(p3,r3)…(pn,rn)在計算平均值,這樣就得到『巨集查準率』,『巨集查全率』,『巨集f1』
2.還可先將各混淆矩陣對應元素平均,得到tp、fp、tn、fn的平均值,記為在計算平均值,這樣就得到『巨集查準率』,『巨集查全率』,『巨集f1』
模型評估與模型選擇
模型選擇的目的是使學到的模型對已知資料和未知資料都有較好的 能力,同時又要避免過擬合。所考察的指標主要是模型的訓練誤差及測試誤差,模型的複雜度越高,訓練誤差越小,但測試誤差先減小後增大。訓練誤差和測試誤差隨模型複雜度變化趨勢 過擬合是指模型的複雜度比真模型更高,模型選擇就是選擇測試誤差最小的適當複雜...
模型評估與選擇
錯誤率 分類錯誤的樣本書佔樣本總數的比例 誤差 學習器的實際 輸出與樣本的真實輸出之間的差異 訓練誤差 經驗誤差 學習器在訓練集上的誤差 泛華誤差 在新樣本上的誤差 過擬合 學習器把訓練樣本學的 太好 了,很可能已經把訓練樣本本身的一些特點當作了所有潛在樣本都會具有的一般性質,導致泛華效能下降。欠擬...
模型評估與選擇
1.概念 錯誤率 錯誤分類的樣本數佔樣本總數的比例 精度 1 錯誤率,即正確分類的樣本數佔樣本總數的比例 經驗 訓練 誤差 學習器在訓練集上的誤差 泛化誤差 學習器在新樣本上的誤差 過擬合 學習器在訓練集上效果太好,而在新樣本上的效果較差的現象。模型選擇 不同學習演算法或者相同的學習演算法,當使用不...