機器學習的一些問題 模型評估之ROC曲線

2021-09-24 02:11:28 字數 536 閱讀 8637

二值分類器binary classifier:機器學習領域最常用、應用最廣泛的分類器。roc曲線是評估其模型的重要指標之一。

roc曲線receiver operating characteristic curve,受試者工作特徵曲線,橫座標為fpr(假陽性率false positive rate),縱座標為tpr(真陽性率true positive rate)。

fpr=fp/n,負樣本被**為正樣本/真實的負樣本;

tpr=tp/p,正樣本被**為正樣本/真實的正樣本。

roc曲線通過不斷移動「截斷點」來生成曲線上一組關鍵點,因此當截斷點選擇為無窮時,fp=tp=0,所以曲線的第乙個座標點為(0,0);同理,最後乙個點為(1,1)。

auc,area under curve,一般的情況下,roc曲線會在y=x的上方,故而auc取值一般為0.5~1之間。

相對於p-r曲線,roc曲線在測試集正負樣本比例發生變化時,形狀基本保持不變,降低了不同測試集的干擾,更能反映模型本身的好壞,因此roc曲線的使用場景很多。而p-r曲線則能反映模型在特定資料集上模型的效能。

機器學習 wordcount的一些問題

wordcount就是hadoop上的 hello world 非常經典,弄清楚它可以快速的幫助我們理解hadoop一些相關概念和執行機制,這裡找了一篇好文,基本上把wordcount分析的非常透徹了,流程大概是這樣子的 但是還是有乙個問題,就是當hadoop在split的時候,如果將乙個大的文字檔...

盒子模型的一些問題

1.margin疊加問題 當給兩個盒子同時新增上下外邊距時,就會出現疊加問題,而且這個問題只會出現在上下疊加,不會出現在左右疊加,系統會取上下外邊距中較大的值作為兩個盒子之間的間距。解決方案 bfc規範 在上下外邊距中只設定一方的邊距。2.margin傳遞問題 margin傳遞問題出現在巢狀模型中,...

學習機器學習中遇到的一些問題

本文用來記錄學習機器學習時遇到的tensorflow框架的相關問題及python基礎語法的相關問題 1.tensor.eval 函式和session.run函式區別 假設你有個tensor t,t.eval 等價於tf.get default session t 其中最主要的區別時session.r...