分類器的評估與選擇

混淆矩陣：分析分類器的**能力。以二元分類為例

實際\**

y=1(陽)

y=0(陰)

合計y=1

tpfn

py=0

fptn

n其中：

tp：「真陽性」的個數，**「陽性為陽性」，正確。

tn：「真陰性」的個數，**「陰性為陰性」，正確。

fp：「真陽性」的個數，**「陰性為陽性」，錯誤。

fn：「真陽性」的個數，**「陽性為陰性」，錯誤。

常用的評估分類器效能的指標。

靈敏度=真陽性率tpr=正確**為陽的個數/實際為陽的總個數=tp/p

特異度=真陰性率tnr=正確**為陰的個數/實際為陰的總個數=tn/n

我們往往關注y=1(陽)的類，這就要求我們的分類器準確率高，靈敏度也要高。

對於同乙個分類器，準確率和靈敏度可能有兩種截然不同的評價，準確率很高，靈敏度卻很低——「類不平衡問題」，y=1很少，y=0很多。

處理類失衡資料集的技術：過抽樣、欠抽樣和閾值移動。

全面的評價工具：roc曲線，假陽性率fpr為橫座標，真陽性率tpr為縱座標。曲線下的面積大小度量了分類器正確**的效果，值越接近1，分類器效果越好。

錯誤率分類錯誤的樣本書佔樣本總數的比例誤差學習器的實際輸出與樣本的真實輸出之間的差異訓練誤差經驗誤差學習器在訓練集上的誤差泛華誤差在新樣本上的誤差過擬合學習器把訓練樣本學的太好了，很可能已經把訓練樣本本身的一些特點當作了所有潛在樣本都會具有的一般性質，導致泛華效能下降。欠擬...

1.概念錯誤率錯誤分類的樣本數佔樣本總數的比例精度 1 錯誤率，即正確分類的樣本數佔樣本總數的比例經驗訓練誤差學習器在訓練集上的誤差泛化誤差學習器在新樣本上的誤差過擬合學習器在訓練集上效果太好，而在新樣本上的效果較差的現象。模型選擇不同學習演算法或者相同的學習演算法，當使用不...

當我們有一堆模型，哪個是最好的呢？一定義錯誤率精度是不是就是正確率？誤差訓練誤差經驗誤差泛化誤差二過擬合與欠擬合過擬合學到了過多東西，那些特徵並不是正確的。欠擬合有些特徵沒有學到過擬合比較難解決欠擬合比較好解決，比如決策樹中擴充套件分支神經網路中增加訓練輪數怎樣評價乙...