分類評測標準

2021-07-12 05:20:52 字數 1726 閱讀 4181

1.查準率(precision)和查全率(recall)

precesion:查準率,即在檢索後返回的結果中,真正正確的個數佔整個結果的比例

recall:查全率,即在檢索結果中真正正確的個數佔整個資料集(檢索到和未檢索到的)中真正正確個數的比例。

fn:false negative,被判定為負樣本,但實際上是正樣本。

fp:false positive, 被判定為正樣本,但實際上是負樣本。

tn:true negative: 被判定為負樣本,實際上也是負樣本。

tp:true positive:被判定為正樣本,實際上也是正樣本。

precision=tp/(tp+fp)--------------------判對的正例佔整個被判為正例的集合的比例

recall=tp/(tp+fn)-------------------------判對的正例佔整個正例集的比例

pr曲線:橫軸為recall,縱軸為precision

2.綜合評價指標(f-score)

f-score是precision和recall加權調和平均:

當引數b=1時,就是最常見的f1也就是:

3.roc 曲線

縱軸:真正率(擊中率)true positive rate,tpr,稱為靈敏度。所有實際正例中,正確識別的正例比例。

tpr=tp/(tp+fn)

橫軸:假正率(虛報率)false positive rate,fpr,稱為特異度。所有實際負例中,錯誤的識別為正例的負例比例。

fpr=fp/(fp+tn)

4.auc值

auc的值就是計算出roc曲線下面的面積

方法一:

統計一下所有的 m×n(m為正類樣本的數目,n為負類樣本的數目)個正負樣本對中,有多少個組中的正樣本的score大於負樣本的score。當二元組中正負樣本的 score相等的時候,按照0.5計算。然後除以mn。實現這個方法的複雜度為o(n^2)。n為樣本數(即n=m+n)

方法二:

它也是首先對score從大到小排序,然後令最大score對應的sample 的rank為n,第二大score對應sample的rank為n-1,以此類推。然後把所有的正類樣本的rank相加,再減去正類樣本的score為最 小的那m個值的情況。得到的就是所有的樣本中有多少對正類樣本的score大於負類樣本的score。然後再除以m×n。即:

auc=((所有的正例位置相加)-m*(m+1))/(m*n)

4:平均準確率(map)

單個主題的平均準確率是每篇相關文件檢索出後的準確率的平均值。主集合的平均準確率(map)是每個主題的平均準確率的平均值。 map 是反映系統在全部相關文件上效能的單值指標。系統檢索出來的相關文件越靠前(rank 越高),map就可能越高。如果系統沒有返回相關文件,則準確率預設為0。

5:accuracy

正確率是我們最常見的評價指標,accuracy = (tp+tn)/(p+n),這個很容易理解,就是被分對的樣本數除以所有的樣本數,通常來說,正確率越高,分類器越好。

分類任務的metrics 模型評測標準

在分類任務中,想要知道模型的好壞,是不是能夠實際應用,那麼必須有評價的標準,本文將詳細說來。如果不提到混淆矩陣,那麼下面的概念就不好理解。我自己先默寫了下,結果發現錯了 錯的全顛倒 錯誤示例如下 上圖錯誤的原因是不知道true positive這種概念是針對誰來說,小明哥這裡給出 true fals...

zz 軟體評測標準

軟體評測標準 2007 8 31 224 本中心依據gb t 16260 1996 資訊科技 軟體產品評價 質量特性及其使用指南 gb t 17544 1998 資訊科技 軟體包 質量要求和測試 國家標準,並參照委託方提供的軟體使用者手冊和使用說明書,分別對被測軟體的使用者文件 功能性 可靠性 可維...

BUG分類標準

一 目的 對 bug 概念 型別劃分 bug 狀態 bug 嚴重程度等內容進行定義和規範,以便進一步指導我們的 工作軟體測試 二 概念 bug 軟體中存在的瑕疵,可能會導致系統失效。簡單的說就是軟體系統中存在的可能導致系統出錯 失效 宕機等問題的錯誤或缺陷。三 bug 的型別劃分 功能類a.重複的功...