混淆矩陣:分析分類器的**能力。以二元分類為例
實際\**
y=1(陽)
y=0(陰)
合計y=1
tpfn
py=0
fptn
n其中:
tp:「真陽性」的個數,**「陽性為陽性」,正確。
tn:「真陰性」的個數,**「陰性為陰性」,正確。
fp:「真陽性」的個數,**「陰性為陽性」,錯誤。
fn:「真陽性」的個數,**「陽性為陰性」,錯誤。
常用的評估分類器效能的指標。
靈敏度=真陽性率tpr=正確**為陽的個數/實際為陽的總個數=tp/p
特異度=真陰性率tnr=正確**為陰的個數/實際為陰的總個數=tn/n
我們往往關注y=1(陽)的類,這就要求我們的分類器準確率高,靈敏度也要高。
對於同乙個分類器,準確率和靈敏度可能有兩種截然不同的評價,準確率很高,靈敏度卻很低——「類不平衡問題」,y=1很少,y=0很多。
處理類失衡資料集的技術:過抽樣、欠抽樣和閾值移動。
全面的評價工具:roc曲線,假陽性率fpr為橫座標,真陽性率tpr為縱座標。曲線下的面積大小度量了分類器正確**的效果,值越接近1,分類器效果越好。
模型評估與選擇
錯誤率 分類錯誤的樣本書佔樣本總數的比例 誤差 學習器的實際 輸出與樣本的真實輸出之間的差異 訓練誤差 經驗誤差 學習器在訓練集上的誤差 泛華誤差 在新樣本上的誤差 過擬合 學習器把訓練樣本學的 太好 了,很可能已經把訓練樣本本身的一些特點當作了所有潛在樣本都會具有的一般性質,導致泛華效能下降。欠擬...
模型評估與選擇
1.概念 錯誤率 錯誤分類的樣本數佔樣本總數的比例 精度 1 錯誤率,即正確分類的樣本數佔樣本總數的比例 經驗 訓練 誤差 學習器在訓練集上的誤差 泛化誤差 學習器在新樣本上的誤差 過擬合 學習器在訓練集上效果太好,而在新樣本上的效果較差的現象。模型選擇 不同學習演算法或者相同的學習演算法,當使用不...
模型評估與選擇
當我們有一堆模型,哪個是最好的呢?一 定義 錯誤率精度 是不是就是正確率?誤差訓練誤差 經驗誤差 泛化誤差 二 過擬合與欠擬合 過擬合 學到了過多東西,那些特徵並不是正確的。欠擬合 有些特徵沒有學到 過擬合 比較難解決 欠擬合 比較好解決,比如決策樹中擴充套件分支 神經網路中增加訓練輪數 怎樣評價乙...