機器學習面試必知評價指標和含義

tp—正確地**了正類，正→

\rightarrow

→正tn—正確地**了負類，負→

\rightarrow

→負fp—錯誤地**了正類，負→

\rightarrow

→正fn—錯誤地**了負類，正→

\rightarrow

→負

準確率acc

urac

y=tp

+tnt

p+tn

+fp+

fnaccuracy=\frac

accura

cy=t

p+tn

+fp+

fntp

+tn

準確率是分類問題中最簡單也是最直觀的評價指標，但存在明顯缺陷，在樣本類別不平衡時，例如負樣本佔99%，分類器只需要全部分類成負樣本就能得到99%的準確率，所以這時佔比大的類別往往成為影響準確率的最主要的因素。

精確率p=t

ptp+

fpp=\frac

p=tp+f

ptp

召回率r=t

ptp+

fnr=\frac

r=tp+f

ntp

在排序問題中，通常沒有乙個確定的閾值把得到的結果直接判定為正樣本或負樣本，而是採用top n返回結果的精確率或者召回率來衡量排序模型的效能。

p-r曲線的橫軸是召回率，縱軸是精確率。

其p-r曲線上的乙個點代表著，在某一閾值下，模型將大於該閾值的結果判定為正樣本，小於該閾值的結果判定為負樣本，此時返回結果對應的召回率和精確率。整條p-r曲線是通過將閾值從高到低移動而生成的。原點附近代表閾值最大時模型的精確率和召回率。

f1f_

f1是精確率和召回率的調和均值2f1

=1p+

1r\frac}=\frac+\frac

f12=

p1+

r1f1=

2tp2

tp+f

p+fn

f_=\frac

f1=2t

p+fp

+fn2tp

roc曲線的橫座標是假陽性率fpr，縱座標是真陽性率tpr。fpr

=fpn

fpr=\frac

fpr=nf

pt pr

=tpp

tpr=\frac

tpr=pt

p相比於p-r曲線，roc曲線有乙個特點，當正負樣本的分布發生變化時，roc曲線的形狀基本能保持不變，而p-r曲線的形狀會發生較劇烈的變化。

如何處理缺失值

當缺失值較多時直接捨棄這一特徵

資料不平衡怎麼辦

使用正確的評估標準,當資料不平衡時可以採用精度,呼叫度,f1得分,mcc,auc等評估指標。

重新取樣資料集,如欠取樣和過取樣。欠取樣通過減少冗餘類的大小來平衡資料集。當資料量不足時採用過取樣,嘗試通過增加稀有樣本的數量來平衡資料集,通過使用重複,自舉,smote等方法生成新的樣本。

以正確的方式使用k-fold交叉驗證,組合不同的重取樣資料集,對多數類進行聚類。

C 必知必會指標比較的含義

c 指標比較的不是位址，而是物件同一性問題。即指標位址可以不同，而比較的結果卻相同。這個問題用多重繼承比較直觀存在乙個從子類到任乙個基類的預定義轉化。乙個基類的指標是與其派生類的指標的，並不是因為位址相同而是型別相同，因為派生類就是基類，就像班長就是學生一樣。這從更抽象的乙個層次來對待指標乙個...

機器學習評價指標整理

目錄 1.準確率 accuracy 2.召回率 recall 3.精確率 precision 4.召回率與精確率的關係 5.誤報率 fpr 與漏報率 fnr 準確率是指我們的模型正確的結果所佔的比例。正式點說，準確率的定義如下 accuracy frac 對於二元分類，也可以根據正類別和負類別按如...

機器學習必知必會交叉驗證

當我們根據資料訓練出乙個機器學習模型時，我們希望它在新的資料上也保持較高的準備率，這就需要我們對學習到的不同模型有乙個模型評估準則。為了評估模型的泛化效能指模型在未知資料上的能力防止模型落入過擬合的陷進。我們人為地將原始資料劃分為訓練集和測試集，前者用於訓練模型，後者用於評估模型的泛化效能...

機器學習面試必知 評價指標和含義

C 必知必會 指標比較的含義

機器學習 評價指標整理

機器學習必知必會 交叉驗證

相關推薦

機器學習面試必知評價指標和含義

C 必知必會指標比較的含義

機器學習評價指標整理

機器學習必知必會交叉驗證