機器學習 模型評估那點事兒

2021-09-22 02:41:21 字數 422 閱讀 8650

​​​1.1評估方法——如何切分資料:

一部分為訓練集,一部分為測試集。

應盡量保證資料分布的一致性。

劃分為k個互斥子集,用k-1作為訓練集,剩下乙個為測試集,最終每乙個子集都會作為測試集,其餘子集作為訓練集,共進行k次建模,最終得到測試結果的均值。

k取值一般為10

隨機取k個互斥子集,進行p次,最後對p個k-fold cv進行取平均,叫作p次k

m個樣本,令k=m,作為cv的特例。只有一種劃分方法,即每個測試集只有一條資料。

優勢:每個模型都能很好的反應原始資料集的特性

劣勢:計算量在資料量大時會非常大,還不算調參的計算量

有放回的隨機取樣。對d中的m個資料隨機取樣,接著將資料放回原資料集繼續取樣,重複m次,產生乙個新的資料集d』。最後用未取到的資料作為測試集。未取到的資料佔比36.8%

機器學習的模型評估

機器演算法有很多,各種模型的在不同的場景下各有優劣。所以需要一些方法來對機器學習的方法有乙個判斷。真實情況 正例反例 正例tp 真正例 fn 假反例 反例fp 假正例 tn 真反例 p tpt p fp r tptp fnroc reciever operating characteristic 是...

機器學習模型評估方法

分類模型評價度量 概率輸出型 這個有邏輯回歸 隨機森林 梯度提公升 adaboost等演算法,都是以概率作為輸出的。要想把概率型輸出變為分型別輸出,只要為其設立乙個閾值即可。positive predictive value 陽性 值 or precision 精度 陽性 值被 正確的比例。nega...

機器學習 模型評估指標

from sklearn.metrics import accuracy score print 準確率 accuracy score y true,y pred,normalize true print 正確分類的數量 accuracy score y true,y pred,normalize ...