roc曲線理解
好文:precison(查準率):**為正例的樣本中真正正例的比例。
recall(召回率):真正為正例的樣本有多少被**出來。
正確率:正負例都對的比例。
優勢:正負樣本的分布變化時(即比例大改變),roc曲線能夠保持不變。
在上圖中,a和c為roc曲線,b和d為precison和recall曲線。a和b展示的是在原始測試集(正負樣本平衡)的結果,c和d是將測試集中負樣本的數量變為原來的10倍後分類器的結果。可以看出,曲線基本保持不變,而precison和recall變化較大。
roc可以用來比較不同分類器的相關效能。
如圖是乙個roc曲線的例項:
其中橫座標為fpr(false positive rate 假陽率),縱座標為真陽率tpr(true postive rate)。
fpr:所有負例中有多少被**為正例; tpr:有多少真正的正例被**出來;
roc 描繪了兩者的相對權衡:
下圖給出了precison,recall, fpr,tpr的定義:
predicted postive
predicted negative
real postive
tpfn
real negative
fptn
f-measure: precison和recall的調和平均值。沒有乙個單個的度量可以告訴所有的資訊,所以建議使用多個度量。
接下來我們考慮roc曲線中的四個點和一條線。
1.(0,0):fp=tp=0 ,即所有樣本都被**為負樣本;
2.(1,1):fp=tp=1,所有樣本都被**為正樣本;
3.(1,0):fp=1,tp=0,所有正例都被**為負例,而所有正例都沒被**出來,這時最糟糕的分類器,因為它成功的避開了所有正確答案。
4.(0,1):fp=0,tp=1,這是乙個完美的分類器,它將所有樣本都正確分類。
所以經過上述分析,我們可以斷言,roc曲線越接近左上角,該分類器的效能越好,意味著分類器在假陽率很低的同時獲得了很高的真陽率。
5. 虛線y=x:這條對角線熵的點其實代表的是乙個採用隨機猜測策略的分類器的結果。例如(0.5,0.5),表示對於一半的樣本猜測其為正樣本,另外一半樣本為負樣本。出現在右下角三角形中的任何分類器都比隨機猜測更糟糕。因此,在roc圖中,此三角形通常為空。
ML 線性回歸系列(二) 基礎統計
華電北風吹 天津大學認知計算與應用重點實驗室 日期 2015 11 25 線性回歸是統計學裡面乙個非常重要的部分,在本系列的第二部分主要總結一些線性回歸的統計學指標。並且不定期更新。一 統計學名詞 樣本與系列第一篇表示一樣表示為 x i y i 模型對於x i 的 值為y i tx i 所有樣本的y...
ML基礎 機器學習基礎
收集資料 我們可以使用很多方法收集樣本資料,如 製作網路爬蟲從 上抽取資料 從rss反饋或者api中得到資訊 裝置傳送過來的實測資料 風速 血糖等 提取資料的方法非常多,為了 節省時間與精力,可以使用公開可用的資料來源。準備輸入資料 得到資料之後,還必須確保資料格式符合要求,此外還需要為機器學習演算...
ML 機器學習基礎
目錄 偏差與方差 導致偏差和方差的原因 深度學習中的偏差與方差 生成模型與判別模型 兩者之間的聯絡 優缺點常見模型 先驗概率與後驗概率 在監督學習中,模型的泛化誤差可分解為偏差 方差與雜訊之和 偏差用於描述模型的擬合能力 方差用於描述模型的穩定性 方差通常是由於模型的複雜度相對於訓練集過高導致的 監...