機器學習效能度量

2021-10-07 07:08:30 字數 3001 閱讀 1985

回歸評估指標

分類評估指標

聚類評估指標

參考常見的評估方法有: 1. 留出法(hold-out) 2. 交叉驗證法(cross validation)3. 自助法(bootstrap)

將已有的資料集分為兩個互斥的部分

保證資料s與t的分布一致

測試集比例一般保持在1/3 ~ 1/5

將原始資料分成k組(一般是均分),將每個子集資料分別做一次驗證集,其餘的k-1組子集資料作為訓練集,這樣會得到k個模型,用這k個模型最終的驗證集的分類準確率的平均數作為此k-cv下分類器的效能指標.

k一般大於等於2,實際操作時一般從3開始取,只有在原始資料集合資料量小的時候才會嘗試取2.

交叉驗證法可以有效的避免過學習以及欠學習狀態的發生,最後得到的結果也比較具有說服性.

資料集d中包含m個樣本,對資料集d進行m次有放回取樣,取樣到的資料構成資料集d′, 將d′作為訓練集,未出現在d′中的資料作為測試集 。

其中樣本不出現在d』中的概率為:

注:1. 適用於小資料集。2. 不會減小訓練集規模。 3. 改變了資料分布, 易引起估計偏差。

回歸模型的任務目標是使得**值能盡量擬合實際值, 因此常用的效能度量方式主要有絕對誤差和均方差兩種

mae誤差又稱為 l1範數損失(l1-norm loss),即**點與真實點之間距離之差的絕對值的平均值。能更好地反映**值誤差的實際情況。定義為:

mse又稱為l2範數損失(l2-norm loss),即**點與真實點之間距離之差平均和的均值。是用來衡量一組數自身的離散程度。定義為:

是觀測值與真值偏差的平方和與觀測次數m比值的平方根, 是用來衡量觀測值同真值之間的偏差。定義為:

分類模型的評估指標比較多,不同的評估指標的側重點可能不同。

以二分類(正、負)為例:

真正(tp):模型**為正的正樣本

假正(fp):模型**為正的負樣本

假負(fn):模型**為負的正樣本

真負(tn):模型**為負的負樣本

用來衡量模型對資料集中樣本**正確的比例, 即: 正確**的正反例數 /總數

是指所有**為正例的樣本(tp + fp)中真正為正例的樣本(tp)的比率, 即: 正確**的正例數 /**正例總數

是指所有為正例的樣本(tp + fn)中真的正例(tp)的比率, 即: 正確**的正例數 /實際正例總數

精確率(precision)和召回率(recall)評估指標,理想情況下做到兩個指標都高當然最好,但一般情況下,precision高,recall就低,recall高,precision就低。

所以在實際中常常需要根據具體情況做出取捨,例如一般的搜尋情況,在保證召回率的條件下,盡量提公升精確率。引出了乙個新的指標f-score,綜合考慮precision和recall的調和值f-score

當β=1時,稱為 f1-score或者 f1-measure,這時,精確率和召回率都很重要,權重相同。

當有些情況下,我們認為精確率更重要些,那就調整β的值小於1,

如果我們認為召回率更重要些,那就調整β的值大於1。

根據分類結果計算得到roc空間中相應的點,連線這些點形成roc曲線。

真正率(tpr):**為正的正樣本數 /正樣本實際數

假正率(fpr) :**為正的負樣本數 /負樣本實際數

靠近左上角的roc曲所代表的分類器準確性最高

roc曲線下的面積(roc的積分) 稱為 auc。根據曲線位置,把整個圖劃分成了兩部分,曲線下方部分的面積被稱為auc(area under curve),用來表示**準確性,auc值越高,也就是曲線下方面積越大,說明**準確率越高。曲線越接近左上角(x越小,y越大),**準確率越高。

auc = 1: 100%完美識別正負類,不管閾值怎麼設定都能得出完美**;

0.5auc=0.5:跟隨機猜測一樣(例:隨機丟n次硬幣, 正反面的概率為50%), 模型無**價值;

auc<0.5:比隨機猜測還差,不存在auc<0.5的情況

又稱為誤差矩陣, 主要用於比較分類結果和例項的真實資訊

因為聚類是將樣本集劃分為若干個不相交的子集, 及樣本簇, 同樣需要通過某些效能度量方式來評估其聚類結果的好壞。直觀上看,我們是希望同一簇內的樣本能盡可能相似,而不同簇的樣本之間盡可能不同。實現這一目標主要有外部指標和內部指標兩種方式。

// todo

周志華 機器學習 效能度量

2.5 效能度量 效能度量 performance measure 是衡量模型泛化能力的評價標準,在對比不同模型的能力時,使用不同的效能度量往往會導致不同的評判結果。本節除2.5.1外,其它主要介紹分類模型的效能度量。2.5.1 最常見的效能度量 在回歸任務中,即 連續值的問題,最常用的效能度量是 ...

機器學習 效能度量指標之查準率和查全率

在很多實際應用中,我們知道僅僅關心正確分類的結果是不夠的,並且,在資料偏斜比較嚴重的情況下,模型準確率可能具有相當程度的誤導性,我們也需要知道資料被錯誤分類的情況,以確認為此需要承擔的分類錯誤的代價。false positive假陽性和false negative假陰性,這兩種情況 查準率 prec...

機器學習之分類學習(效能分析)

在上面我們得到了乙個邏輯回歸模型,但我們需要這個模型的效能如何,也是知道這個模型學習的成果如何,要進行期末考試。考試,顧名思義是給模型發答卷,答卷就是前面我們提取出來的測試資料,我們把測試據中的結果抽空作為標準答案,讓模型答題,最後對照標準答案給分。使用訓練好的模型lr對x test進行 結果儲存在...