1.分類問題
1.混淆矩陣
[ tp
fpfn
tn
]\begin tp&fp\\\\ fn&tn\\\\ \end
⎣⎢⎢⎡t
pfn
fptn
⎦⎥⎥
⎤真正率:tpr=tp/(tp+fn)
假正率:fpr=fp/(fp+tn)
假負率:fnr=fn/(fn+tp)
真負率:tnr=tn/(tn+fp)
from sklearn.metrics import confusion_matrix
2.準確率
更多應用於均衡樣本中
即正確**的例子(正與負)除以總數
accuracy=(tp+tn)/(tp+fp+fn+tn)
from sklearn.metrics import accuracy_score
3.精確率
針對正樣本**結果
precision=tp/(tp+fp)
4.召回率
在實際正樣本中**,又稱查全率
recall=tp/(tp+fn)
5.f1-score
召回率與精確率的調和
f 1=
2pre
cisi
onre
call
prec
isio
n+re
call
f_1=\frac
f1=pr
ecis
ion+
reca
ll2p
reci
sion
reca
ll6.roc曲線
橫座標為fpr,縱座標為tpr
roc曲線越接近左上角,**效果越好,同時roc較為光滑認為沒有過擬合現象
fpr,tpr,_=sklearn.metrics.roc_curve(y_test,y_pred)
7.auc(area under curve)
應用於不均衡樣本
roc曲線下面的面積,越接近1.0,**效果越好
8.pr曲線
橫座標precision,縱座標recall
基於情況選擇指標,交叉時選擇平衡點f1決定
precision,recall,_=sklearn.metrics.precision_recall_curve(y_test,y_pred)
待補充。。。
機器學習之誤差評判
開始找乙個題目來練手,這是乙個關於二手車交易 的題目,首先看一下這個題目。該資料來自某交易平台的二手車交易記錄,總資料量超過40w,包含31列變數資訊,其中15列為匿名變數。從中抽取15萬條作為訓練集,5萬條作為測試集,同時會對name model brand和regioncode等資訊進行脫敏 資...
機器學習中分類問題
regression與線性回歸 linear regression 線性回歸 linear regression 損失函式 loss function 我們要找到最好的權重 引數 怎麼去衡量 最好 定義損失函式 最小化損失函式 梯度下降 gradient descend 逐步最小化損失函式的過程 如...
機器學習 分類器效能指標
1.錯誤率 e 錯誤分類個數 總樣本數 2.正確率 tp 分類正確正例 tn 分類正確負例 fp 分類錯誤正例 fn 分類錯誤負例 precision 分類正確的正類 結果中被分為正類的個數 tp tp fp 3.召回率 recall 分類正確的正類 所有正類的個數 tp tp fn 4.f1 sc...