機器學習面試必知 評價指標和含義

2021-09-12 02:14:07 字數 1884 閱讀 8872

tp—正確地**了正類,正→

\rightarrow

→正tn—正確地**了負類,負→

\rightarrow

→負fp—錯誤地**了正類,負→

\rightarrow

→正fn—錯誤地**了負類,正→

\rightarrow

→負

準確率acc

urac

y=tp

+tnt

p+tn

+fp+

fnaccuracy=\frac

accura

cy=t

p+tn

+fp+

fntp

+tn​

準確率是分類問題中最簡單也是最直觀的評價指標,但存在明顯缺陷,在樣本類別不平衡時,例如負樣本佔99%,分類器只需要全部分類成負樣本就能得到99%的準確率,所以這時佔比大的類別往往成為影響準確率的最主要的因素。

精確率p=t

ptp+

fpp=\frac

p=tp+f

ptp​

召回率r=t

ptp+

fnr=\frac

r=tp+f

ntp​

在排序問題中,通常沒有乙個確定的閾值把得到的結果直接判定為正樣本或負樣本,而是採用top n返回結果的精確率或者召回率來衡量排序模型的效能。

p-r曲線的橫軸是召回率,縱軸是精確率。

其p-r曲線上的乙個點代表著,在某一閾值下,模型將大於該閾值的結果判定為正樣本,小於該閾值的結果判定為負樣本,此時返回結果對應的召回率和精確率。整條p-r曲線是通過將閾值從高到低移動而生成的。原點附近代表閾值最大時模型的精確率和召回率。

f1f_

f1​是精確率和召回率的調和均值2f1

=1p+

1r\frac}=\frac+\frac

f1​2​=

p1​+

r1​f1=

2tp2

tp+f

p+fn

f_=\frac

f1​=2t

p+fp

+fn2tp​

roc曲線的橫座標是假陽性率fpr,縱座標是真陽性率tpr。fpr

=fpn

fpr=\frac

fpr=nf

p​t pr

=tpp

tpr=\frac

tpr=pt

p​相比於p-r曲線,roc曲線有乙個特點,當正負樣本的分布發生變化時,roc曲線的形狀基本能保持不變,而p-r曲線的形狀會發生較劇烈的變化。

如何處理缺失值

當缺失值較多時直接捨棄這一特徵

資料不平衡怎麼辦

使用正確的評估標準,當資料不平衡時可以採用精度,呼叫度,f1得分,mcc,auc等評估指標。

重新取樣資料集,如欠取樣和過取樣。欠取樣通過減少冗餘類的大小來平衡資料集。當資料量不足時採用過取樣,嘗試通過增加稀有樣本的數量來平衡資料集,通過使用重複,自舉,smote等方法生成新的樣本。

以正確的方式使用k-fold交叉驗證,組合不同的重取樣資料集,對多數類進行聚類。

C 必知必會 指標比較的含義

c 指標比較的不是位址,而是物件同一性問題。即指標位址可以不同,而比較的結果卻相同。這個問題用多重繼承比較直觀 存在乙個從子類到任乙個基類的預定義轉化。乙個基類的指標是與其派生類的指標 的,並不是因為位址相同而是型別相同,因為派生類就是基類,就像班長就是學生一樣。這從更抽象的乙個層次來對待指標 乙個...

機器學習 評價指標整理

目錄 1.準確率 accuracy 2.召回率 recall 3.精確率 precision 4.召回率與精確率的關係 5.誤報率 fpr 與漏報率 fnr 準確率是指我們的模型 正確的結果所佔的比例。正式點說,準確率的定義如下 accuracy frac 對於二元分類,也可以根據正類別和負類別按如...

機器學習必知必會 交叉驗證

當我們根據資料訓練出乙個機器學習模型時,我們希望它在新的資料上也保持較高的準備率,這就需要我們對學習到的不同模型有乙個模型評估準則。為了評估模型的泛化效能 指模型在未知資料上的 能力 防止模型落入 過擬合 的陷進。我們人為地將原始資料劃分為訓練集和測試集,前者用於訓練模型,後者用於評估模型的泛化效能...