02 評選
1、查準率,查全率
不要記西瓜書上的tp,fp,用個例子分析,記住。
理解各自含義:
查準率p-precision:在所有**為真中,真正為真的所佔比例(本題,在所有**為1中的樣本中,真實為1的所佔比重)
查全率:r-recall:在所有真實為1的樣本中,**為1所佔比重。
再比如:
查準率=tp/(tp+fp)例,在所有我們**有惡性腫瘤的病人中,實際上有惡性腫瘤的病人的百分比,越高越好。
查全率=tp/(tp+fn)例,在所有實際上有惡性腫瘤的病人中,成功**有惡性腫瘤的病人的百分比,越高越好。
降低閥值,提高recall
提高閥值,提高precision
p-r反向變動關係
隨著閾值增大,p增大,r減小。
為了獲得p,r的平均值,(p+r)/2,但是這個不方便計算,因此這裡採用調和平均數。
roc,auc
說明:tpr,fpr是橫著看,tpr越大越好,fpr越小越好;增長趨勢是一致的(閾值設定);roc曲線:紅色,藍色;auc是roc曲線下的面積
註解:(1)畫的圖和(a)區別:座標軸顛倒了,這樣更容易看。
藍色增長的更慢,所以更好。
西瓜書 機器學習《一》
泛化能力 學習的模型適應新樣本的能力。奧卡姆剃刀原則 自然科學研究中常用的原則。即 若有多個假設和觀測一致,那麼就選擇最簡單的假設。連線主義 黑箱模型,例如 神經網路,不可解釋性,引數手工等調整 符號主義 決策理論的學習技術,例如決策樹學習 以資訊理論為基礎,以資訊熵的最小化為目標。統計學習 svm...
西瓜書機器學習筆記 一
記錄學習機器學習的過程,方便自己以後查閱 機器學習是一門致力研究如何通過計算的手段,利用經驗來改善系統自身的效能的學科 在計算機系統中,經驗通常以 資料 形式存在,因此,機器學習所研究的主要內容是關於在計算機上從資料中產生 模型 的演算法,即 學習演算法 learning algorithm 通過經...
西瓜書 機器學習(周志華)學習問題記錄
西瓜書的鼎鼎大名早有耳聞,於是毫無疑問買來入門。寫此文章的時候剛要做完第二章的練習題。在看的時候有一些感慨 需要一定的數理基礎,尤其是概率論的內容。但是如果沒學過也不建議直接去啃概率論,只要把相關的部分看看即可。周老師預設我們能力很強,所以有些地方說得不夠詳細,僅靠此書無法理解,需要自己另行查閱。有...