查準率與查全率(召回率)是在資訊檢索與機器學習領域常用的衡量指標,書籍或網路上有非常多的定義,敝人在重溫周志華先生《機器學習》一書時,發現書中的定義是非常科學的,而且把這兩個指標根據混淆矩陣進行了數學化!
在資訊檢索領域的定義:檢索出的n個文件中正確結果(m個結果是正確的)的比率即是查準率,即p=n/m;假設在所有的資料中正確結果有n個,一次檢索結果中正確的個數是m個,查全率即召回率定義為 r = m/n
在機器學習領域:假設在一次**中,**總數目是n個,其中m個是**結果中正確的資料,g 是**出和沒**出正確結果的總和,那麼查準率p=n/m,查全率r = m/g
下面給出混淆矩陣
真實情況
**結果
正例反例
正例tp(真正例)
fn(假反例)
反例fp(假正例)
tn(真反例)
查準率p和查全率r分別定義為
p = tp/(tp+fp)
r = tp/(tp+fn)
由以上可以看出,一般情況下查準率和查全率是此消彼長的一對量。當提高查準率時,可以只返回**概率靠前的幾個結果,但此時可能會漏掉一部分正確的結果,導致查全率降低,反之依然!具體應用中應該在查準率與查全率間尋找乙個可以接受的平衡值
查全率 召回率 與精度 查準率 之辨析
查全率 召回率 與精度 查準率 之辨析 召回率 recall rate 和精度 precision 定義 從乙個大規模資料集合中檢索文件的時,可把文件分成四組 系統檢索到的相關文件 系統檢索到的不相關文件 相關但是系統沒有檢索到的文件 相關但是被系統檢索到的文件 相關 不相關 檢索到a b 未檢索到...
深入理解C語言 深入理解指標
關於指標,其是c語言的重點,c語言學的好壞,其實就是指標學的好壞。其實指標並不複雜,學習指標,要正確的理解指標。指標也是一種變數,占有記憶體空間,用來儲存記憶體位址 指標就是告訴編譯器,開闢4個位元組的儲存空間 32位系統 無論是幾級指標都是一樣的 p操作記憶體 在指標宣告時,號表示所宣告的變數為指...
mysql 索引深入理解 深入理解MySql的索引
為什麼索引能提高查詢速度 先從 mysql的基本儲存結構說起 mysql的基本儲存結構是頁 記錄都存在頁裡邊 各個資料頁可以組成乙個雙向鍊錶每個資料頁中的記錄又可以組成乙個單向鍊錶 每個資料頁都會為儲存在它裡邊兒的記錄生成乙個頁目錄,在通過主鍵查詢某條記錄的時候可以在頁目錄中使用二分法快速定位到對應...