1.概念普及:
對於常見二分類問題,樣本有兩種分類結果(正例與反例)。
在進行分類時,對於乙個樣本,可能出現的分類情況有四種:
(正/正):真正類
(反/正):假反類
(正/反):假正類
(反/反):真反類
2.評價指標:
1.準確率accuracy: 被正確分類的樣本數/樣本總數
解讀:總共有100個樣本,其中有90個樣本是**正確的,則準確率為90%
缺點:不能反映模型區分正反例的能力
2.精確率precision: 被正確分類的正例樣本數/總的正例樣本數
解讀:一共有100個樣本,有50個正例和50個反例,有90個樣本是**正確的,其中被分類正確的正例樣本數為50,被分類正確的反例樣本數為40,則精確率為100%。
即該模型在**正例方面的準確率是100%,
3.召回率recall: 被正確分類的正例樣本數/所有被正確分類的樣本數
解讀:一共有100個樣本,有50個正例和50個反例,有90個樣本是**正確的,其中被分類正確的正例樣本數為50,被分類正確的反例樣本數為40,則召回率為50/90%。
即該模型可以正確識別出所有正例的概率為0.555%
3.關係:
要全面評估模型的有效性,必須同時檢查精確率和召回率。遺憾的是,精確率和召回率往往是此消彼長的情況。也就是說,提高精確率通常會降低召回率值,反之亦然。
召回率(查全率)表達的是模型找到資料集中相關例項的能力,而精度(查準率)表達模型找到的資料點中實際相關的比例。
根據案例不同,選擇合適的指標:
例一 :在對患者進行隨訪檢查的初步疾病篩查中,我們可能希望得到接近於 1 的召回率,即我們想找到所有
實際患病的患者。這樣雖然謊報了幾次病情,但真的疾病來臨時,我們沒有錯過,這樣的分類器才是我們想要的,在一定正確率的前提下,我們要求分類器的召回率盡可能的高。
決策樹分類常見問題及評價指標
3.1 評價決策樹的好壞 對的樣本數與總測試樣本數的比值 對的樣本數與 對的 遺漏人數總和的比值 3.2 用準確率和召回率的綜合指標調和平均來衡量好壞 f 2 1 ac cura cy r ecal l 2 accu racy rec all f frac f 2 a ccur acy reca l...
gini係數 決策樹 白話決策樹 評價
首先輸入以下 from sklearn.datasets import load winefrom sklearn.model selection import train test splitfrom sklearn import treefrom six import stringioimpor...
決策樹分類
一 分類的概念 分類是一種重要的資料分析形式,分類方法用於 資料物件的離散類別,而 則用於 資料物件的連續取值 資料分類是兩個階段的過程,包括學習階段和分類階段 學習階段 訓練階段 就是建立描述預先定義的資料類或概念集的分類器 而訓練集是有資料庫元祖和與他們相互關聯的類標號組成 類標號屬性是離散值和...