(1)roc(receiver operating characteristic)受試者工作特徵:研究學習器泛化能力
根據學習器的**結果對樣例進行排序,按此順序逐個把樣本作為正例進行**,每次計算出兩個重要量的值,得到roc曲線。
roc的橫軸是假正例率,縱軸是真正例率。
如果乙個學習器的roc曲線被另乙個的完全包圍,則可斷言後者的效能優於前者;若兩個曲線發生交叉則較為合理的是比較roc曲線下的面積,即auc。
(2)代價敏感錯誤率與代價曲線
依據:不同型別的錯誤造成的後果不同
因此建立乙個代價矩陣,區分各個類別錯誤的損失程度。
roc曲線不能直接反映出學習器的期望總體代價,代價曲線可以。
(3)比較檢驗
統計假設檢驗為我們進行學習器效能比較提供了重要依據,基於假設檢驗的結果,我們可以推斷出,若在測試集上觀察到學習器a比b好,則a的泛化效能是否在統計意義上優於b
(1)假設檢驗:根據測試錯誤率推出泛化錯誤率的分布
(2)交叉檢驗t檢驗:根據差值來對學習器b與學習器a效能相同這個假設做t檢驗
(3)mcnemar檢驗:假設兩學習器效能相同,則兩者在對應測試集上的效能相同
機器學習 周志華 讀書筆記 課後習題 第二章
錯誤率 分類錯誤的樣本佔樣本總數的比例。e a m 精度 1 a m 訓練誤差 經驗誤差 訓練集上的誤差 泛化誤差 新樣本上的誤差。區分資料集,把資料集分為兩部分,一部分是訓練集s另外一部分是測試集t 乙個資料集分成互斥的兩部分,分別作為訓練集和測試集。可以通過分層取樣的方法,保證兩個資料集的資料分...
《機器學習》 周志華 (第二章學習筆記)
誤差 過擬合 已經把訓練樣本自身的一些特點當做了所有潛在樣本都會具有的一般性質,這樣就會導致泛化效能下降,這樣的現象叫做過擬合,與之相對的是 欠擬合 泛化誤差 vs 經驗誤差 留出法 直接將擁有的資料集分成兩個互斥的集合,其中乙個是訓練集,乙個為測試集 交叉驗證法 先將資料集分成k個大小相似的互斥子...
學習筆記(第二章1) (機器學習 周志華)
這是我第一次在csdn上發帖。想要記錄一下在 機器學習 周志華 一書中遇到的一些自己不了解的問題,最終查閱資料獲得的一些解答。一方面在這裡打卡學習進度,另一方面幫助自己以後查閱。今天遇到的問題是p np問題。在第二章中,提到了我們通過尋求經驗化誤差最小化,就能獲得最優解,這是我們構造性地證明了 p ...