分類器效能度量

2022-07-18 06:12:12 字數 1768 閱讀 1045

一般情況下,分類器的好壞是通過錯誤率來衡量的。錯誤率指的是在測試資料中錯誤分類的樣本所佔比例。然而,這樣進行度量掩蓋了樣例如何被分錯的原因。

三類問題混淆矩陣示例:

當該矩陣中非對角元素均為0,那麼就會得到完美的分類器。

二分類混淆矩陣:

在分類中,當某個類別的重要性高於其他類別時,可以利用上述定義來得到比錯誤率更好的指標:

l         正確率(precision):tp/(tp+fp),表示在所有**為正例中真正例所佔的比例。

l         真陽率(true positive rate,tpr),靈敏度(sensitivity),召回率(recall):tp/(tp+fn),表示在所有真正例中**為正例所佔的比例。

l         真陰率(true negative rate,tnr),特異度(specificity):tn/(tn+fp)

l         假陰率(false negatice rate,fnr),漏診率( = 1 – 靈敏度):fn/(fn+tp)

l         假陽率(false positice rate,fpr),誤診率( = 1 – 特異度):fp/(fp+tn)

l         陽性似然比(positive likelihood ratio (lr+)):tpr/(1-tnr)=tpr/fpr

l         陰性似然比(negative likelihood ratio (lr−)):(1-tpr)/tnr=fnr/tnr

l      youden 指數(youden index):youden index=tpr-fpr

對於得到乙個高正確率或召回率的分類器是可行的,但是很難使得兩個同時成立。

roc曲線即receiver operating characteristic curve,表示接收者操作特徵曲線。是反映敏感性和特異性連續變數的綜合指標。

橫座標軸:偽正例的比例(假陽率=fp/(fp+tn))

縱座標軸:真正例的比例(真陽率=tp/(tp+fn))

實線(roc曲線):閾值變化時假陽率和真陽率的變化情況。

虛線:隨機猜測的結果曲線

左下角:所有樣例都判為反例

右上角:所有樣例都判為正例

roc既可以用來比較分類器,還可以基於成本效益(cost versus benefit)分析來做出決策。

在理想情況下,最佳的分類器應該盡可能地處於左上角,即意味著在假陽率很低的同時獲得很高的真陽率。

對不同的roc曲線進行比較的乙個指標為曲線下面積(area unser the curve,auc)。auc給出的是分類器的平均效能值。乙個完美分類器的auc為1.0,隨機猜測的auc為0.5。

①從分類器得到**值(值越大屬於1類的可能性更大),對**值進行公升序排序,並得到每個樣本對應的實際類別,得到正例和反例的個數,以及步長:

設定roc初始繪製點為(1.0,1.0)。

②遍歷所有**值,從排名最低的樣例開始,如果當前**值對應的樣本的實際類別標籤為反例,則比當前**值低的樣本都視作反例,比當前**值高的樣本都視為正例。即每得到乙個標籤為1的類,沿y軸下降乙個步長,降低真陽率,否則x軸上倒退乙個步長,降低假陰率。

分類器效能度量

真陽性tp 為正樣本,實際也為正樣本的特徵數 假陽性fp 為正樣本,實際為負樣本的特徵數 真陰性tn 為負樣本,實際也為負樣本的特徵數 假陰性fn 為負樣本,實際為正樣本的特徵數 正確率 精確率 tp tp fp p 覆蓋率 召回率 tp tp fn r 特異性 tn fp tn s 靈敏度 tp ...

分類器的效能度量

一.評估方法 1.留出法 留出法 直接將資料集d劃分為兩個互斥的集合,其中乙個集合作為訓練集s,另乙個作為測試集t,在s上訓練處模型後,用t來評估其測試誤差,作為對泛化誤差的估計。2.交叉驗證法 交叉驗證法 先將資料集d劃分為k個大小相似的互斥子集,每個子集都盡可能保持資料分布的一致性,即從d中通過...

分類效能度量

錯誤率是分類錯誤的樣本數佔總樣本數的比例 精度是分類正確的樣本數佔總樣本數的比例 查準率p 真正例 為正的樣本數 tp tp fp 是指挑出來的東西裡,有多少是好的。查全率r 真正例 實際為正的樣本數 tp tp fn 是指全部的好東西,挑出來了多大比例。p r圖 查全率為橫軸,查準率為縱軸,包線在...