tp—正確地**了正類,正→\rightarrow
→正tn—正確地**了負類,負→
\rightarrow
→負fp—錯誤地**了正類,負→
\rightarrow
→正fn—錯誤地**了負類,正→
\rightarrow
→負
準確率accurac
y=tp
+tnt
p+tn
+fp+
fnaccuracy=\frac
accura
cy=t
p+tn
+fp+
fntp
+tn
準確率是分類問題中最簡單也是最直觀的評價指標,但存在明顯缺陷,在樣本類別不平衡時,例如負樣本佔99%,分類器只需要全部分類成負樣本就能得到99%的準確率,所以這時佔比大的類別往往成為影響準確率的最主要的因素。
精確率p=tptp+
fpp=\frac
p=tp+f
ptp
召回率r=t
ptp+
fnr=\frac
r=tp+f
ntp
在排序問題中,通常沒有乙個確定的閾值把得到的結果直接判定為正樣本或負樣本,而是採用top n返回結果的精確率或者召回率來衡量排序模型的效能。
p-r曲線的橫軸是召回率,縱軸是精確率。其p-r曲線上的乙個點代表著,在某一閾值下,模型將大於該閾值的結果判定為正樣本,小於該閾值的結果判定為負樣本,此時返回結果對應的召回率和精確率。整條p-r曲線是通過將閾值從高到低移動而生成的。原點附近代表閾值最大時模型的精確率和召回率。
f1f_f1是精確率和召回率的調和均值2f1
=1p+
1r\frac}=\frac+\frac
f12=
p1+
r1f1=
2tp2
tp+f
p+fn
f_=\frac
f1=2t
p+fp
+fn2tp
roc曲線的橫座標是假陽性率fpr,縱座標是真陽性率tpr。fpr=fpn
fpr=\frac
fpr=nf
pt pr
=tpp
tpr=\frac
tpr=pt
p相比於p-r曲線,roc曲線有乙個特點,當正負樣本的分布發生變化時,roc曲線的形狀基本能保持不變,而p-r曲線的形狀會發生較劇烈的變化。
如何處理缺失值當缺失值較多時直接捨棄這一特徵
資料不平衡怎麼辦使用正確的評估標準,當資料不平衡時可以採用精度,呼叫度,f1得分,mcc,auc等評估指標。
重新取樣資料集,如欠取樣和過取樣。欠取樣通過減少冗餘類的大小來平衡資料集。當資料量不足時採用過取樣,嘗試通過增加稀有樣本的數量來平衡資料集,通過使用重複,自舉,smote等方法生成新的樣本。
以正確的方式使用k-fold交叉驗證,組合不同的重取樣資料集,對多數類進行聚類。
C 必知必會 指標比較的含義
c 指標比較的不是位址,而是物件同一性問題。即指標位址可以不同,而比較的結果卻相同。這個問題用多重繼承比較直觀 存在乙個從子類到任乙個基類的預定義轉化。乙個基類的指標是與其派生類的指標 的,並不是因為位址相同而是型別相同,因為派生類就是基類,就像班長就是學生一樣。這從更抽象的乙個層次來對待指標 乙個...
機器學習 評價指標整理
目錄 1.準確率 accuracy 2.召回率 recall 3.精確率 precision 4.召回率與精確率的關係 5.誤報率 fpr 與漏報率 fnr 準確率是指我們的模型 正確的結果所佔的比例。正式點說,準確率的定義如下 accuracy frac 對於二元分類,也可以根據正類別和負類別按如...
機器學習必知必會 交叉驗證
當我們根據資料訓練出乙個機器學習模型時,我們希望它在新的資料上也保持較高的準備率,這就需要我們對學習到的不同模型有乙個模型評估準則。為了評估模型的泛化效能 指模型在未知資料上的 能力 防止模型落入 過擬合 的陷進。我們人為地將原始資料劃分為訓練集和測試集,前者用於訓練模型,後者用於評估模型的泛化效能...