正樣本數佔樣本總數的比例極小時,容易出現偏斜類問題。
例如癌症測試。樣本集合中僅有0.5%的癌症樣本,99.5%的正常樣本。通過某一假設函式後,得到1%為癌症患者,99%為正常樣本。雖然總的正確率高達99%,但假設函式並不理想。因為,我們的目的是為了,檢測出是否得癌。
這時候,如果將99%的準確率提公升至99.2%,無疑是乙個較大的提公升,雖然,在數值上來看,只有0.2%。
因此,對於偏斜類問題,需要引入兩個概念,查準率(precision)和召回率(recall).
還是癌症檢測為例。
實際標籤(1代表得癌)10
預計標籤(1代表得癌)1a
b0cd
預計得癌人數中,真正得癌的人數,佔預計得癌人數的比例,為查準率。即
預計得癌人數中,真正得癌的人數,佔實際得癌人數的比例,為召回率。即
查準率和召回率通常是此長彼消的。
比如,我們使用邏輯回歸,計算得癌風險,通過比對閥值p,預判是否得癌。高於p為癌症,低於p為正常。
當將p設定為0.9時,**過於嚴謹,導致查出癌症的人數減少,準確率提高,即查準率提高。同時,由於過於嚴謹,導致部分得癌樣本未被檢出,因此召回率會比較低。
當將p設定為0.1時,結果又會反轉。查準率低,召回率高。
如何權衡查準率和召回率呢?
通常採用公式f。假設查準率為m,召回率為n,那麼
f值高者,對應的模型更優秀。
例如查準率,召回率都趨近於1,則f趨近於1。
兩者趨近於0,則f趨近於0.
人工智慧之旅
0811 控制科學與工程 081101 控制理論與控制工程 081102 檢測技術與自動化裝置 081103 系統工程 081104 模式識別與智慧型系統 081105 導航 制導與控制 第一步先決定考研考 模式識別與智慧型控制的方向。研究生課程有下面幾種 隨機過程與數理統計,矩陣論,優化理論,近世...
我所理解的人工智慧
很多人容易把人工智慧理解為機械人。機械人是人工智慧的乙個實際體現。人工智慧應用很廣泛。下面我來談談我的理解。人工智慧可分開理解為 人工 和 智慧型 即人類創造出來的智慧型,從廣義上來講只要人類創造出來,能為人類工作減少人類操作步驟,提高工作效率,代替人類工作的都可以歸為人工智慧,從狹義上來講,是人工...
Forecast的人工智慧
forecast智慧型專案管理軟體 人工智慧 英語 artificial intelligence,ai 亦稱機器智慧型,是指由人工製造出來的系統所表現出來的智慧型。通常人工智慧是指通過普通電腦實現的智慧型。人工智慧的研究可以分為幾個技術問題。其分支領域主要集中在解決具體問題,其中之一是,如何使用各...