ks 能定閾值的評價指標

2021-09-20 21:23:49 字數 1442 閱讀 4125

機器學習中,常用到的auc能很好地描述模型整體效能的高低。除了auc,還有乙個指標也能達到相同的效果,那便是ks。不僅如此,ks還能給出最佳的劃分閾值。那麼,ks具體是什麼指標?計算方式和auc有何不同?

ks(kolmogorov-smirnov)評價指標,通過衡量好壞樣本累計分布之間的差值,來評估模型的風險區分能力,ks指標在互金行業可能用到的更多一些,用於評估模型對好壞使用者的區分能力。其計算方式和auc的計算方式基本類似,我們不妨先來回顧一下評價指標必備的四個概念,如下:

但是auc只評價了模型的整體訓練效果,並沒有指出如何劃分類別讓預估的效果達到最好。

ks和auc一樣,都是綜合了真陽性率(tpr)和偽陽性率(fpr)兩個指標來衡量模型的好壞。不同之處在於,ks取的是tpr和fpr差值的最大值

怎麼理解這個最大差值?我們先仔細思考一下tpr和fpr的含義。拿二分類來說,通常接sigmoid函式輸出到0-1之間取閾值劃分,假定0為正例標籤,1為負例標籤,當閾值從0到1變化時,tpr表示所有小於閾值的正例,在所有正例中的比率。同樣的,fpr則表示所有小於閾值的負例,在所有負例中的比率。

令橫軸為閾值,縱軸為tpr和tpr,值域均為[0, 1]。可以這樣直觀理解,隨著橫座標從0到1變化,tpr越快提公升,模型效果越好;反之,fpr越快提公升,模型效果就越差。 ks值,正是圖中的最大差值,此時的橫軸取值,便是最佳閾值。

同樣的,我們可以拿auc講解中的例子來直觀說明ks:現假設有乙個訓練好的二分類器對10個正負樣本(正例5個,負例5個)進行**,得分從高到低排序得到的最好**結果為[1, 1, 1, 1, 1, 0, 0, 0, 0, 0],即5個正例均排在5個負例前面,正例排在負例前面的概率為100%。

繪製其ks折線。首先,我們按照之前的描述方式,繪製tpr、fpr隨著閾值(樣本比例)變化的折線圖,如下圖所示:

從上圖我們可以知道,tpr提公升最快而fpr提公升最慢,的確說明了**結果最好。然後,計算它們的差值,作ks折線圖如下: 

上圖的ks值為1,最佳劃分閾值是0.5,這是最理想的結果了。ks值域為[0, 1],一般情況下,ks值大於0.2就能判定模型是有效的。

為了加深理解,我們稍微改變一下**結果序列為[1, 1, 1, 1, 0, 1, 0, 0, 0, 0],看看ks值有何不同的變化。 

可知上圖的ks值為0.8,最佳劃分閾值為0.4或者0.6。

至此,我們便可以直觀地理解ks評價指標。

分類模型指標ks的含義

如果理解roc曲線的話,就很容易理解ks了。roc橫縱座標分別為fpr tpr。ks橫軸為閾值,縱軸為不同閾值下的tpr,fpr,ks值是max tpr fpr 即兩曲線相距最遠的距離 ks值含義 0.3 模型 性較好 0,2 0.3 模型可用 0 0.2 模型 能力較差 0 模型錯誤 徵信模型中,...

評價指標 分類演算法中常用的評價指標

對於分類演算法,常用的評價指標有 1 precision 2 recall 3 f score 4 accuracy 5 roc 6 auc ps 不建議翻譯成中文,尤其是precision和accuracy,容易引起歧義。1.混淆矩陣 混淆矩陣是監督學習中的一種視覺化工具,主要用於比較分類結果和例...

回歸的評價指標

skullfang 關注 0.32018.01.19 15 18 字數 913 閱讀 39599 喜歡 13 分類問題的評價指標是準確率,那麼回歸演算法的評價指標就是mse,rmse,mae r squared。下面一一介紹 mse mean squared error 叫做均方誤差。看公式 這裡的...