2 模型評估

2021-09-03 02:18:18 字數 2511 閱讀 9977

準確率的侷限性

準確率是指分類正確的樣本佔總樣本個數的比例。

當不同類別的樣本比例非常不均衡時,可以使用更為有效的平均準確率(每個類別下的樣本準確率的算術平 均) 作為模型評估的指標。

精確率與召回率

精確率是指分類正確的正樣本個數佔分類器判定為正樣本的樣本個數的比例。

召回率是指分類正確的正樣本個數佔真正的正樣本個數的比例。

f1 score是精準率和召回率的調和平均值。

p-r(precisionrecall) 曲線

平方根誤差

如果存在個別偏離程度非常大的離群點(outlier) 時, 即使離群點數量非常少, 也會讓rmse指標變得很差。需要在資料預處理的階段把這些雜訊點過濾掉。

平均絕對百分比誤差(mean absolute percent error, mape)

什麼是roc曲線?

受試者工作特徵曲線,二值分類器最重要的指標之一。

roc曲線的橫座標為假陽性率(false positive rate, fpr); 縱座標為真陽性率(true positive rate, tpr) 。

如何繪製roc曲線?

aucauc指的是roc曲線下的面積大小,auc的取值一般在0.5~1之間。

auc越大, 說明分類器越可能把真正的正樣本排在前面, 分類效能越好。

roc曲線相比p-r曲線有什麼特點?

當正負樣本的分布發生變化時, roc曲線的形狀能夠基本保持不變, 而p-r曲線的形狀一般會發生較劇烈的變化。

roc曲線能夠盡量降低不同測試集帶來的干擾, 更加客觀地衡量模型本身的效能。

希望更多地看到模型在特定資料集上的表現, p-r曲線則能夠更直觀地反映其效能 。

余弦相似度、余弦距離、歐氏距離

兩個向量夾角的余弦, 關注的是向量之間的角度關係, 並不關心它們的絕對大小, 其取值範圍是[-1,1]。

當一對文字相似度的長度差距很大、 但內容相近時, 如果使用詞頻或詞向量作為特徵, 它們在特徵空間中的的歐氏距離通常很大; 而如果使用余弦相似度的話, 它們之間的夾角可能很小, 因而相似度高。

余弦相似度在高維情況下依然保持「相同時為1, 正交時為0, 相反時為-1」的性質, 而歐氏距離的數值則受維度的影響, 範圍不固定, 並且含義也比較模糊。

歐氏距離體現數值上的絕對差異, 而余弦距離體現方向上的相對差異。 距離

在乙個集合中, 如果每一對元素均可唯一確定乙個實數, 使得三條距離公理(正定性, 對稱性, 三角不等式) 成立, 則該實數可稱為這對元素之間的距離。

余弦距離滿足正定性和對稱性, 但是不滿足三角不等式, 因此它並不是嚴格定義的距離。

離線評估無法完全消除模型過擬合的影響, 因此, 得出的離線評估結果無法完全替代線上評估結果。

離線評估無法完全還原線上的工程環境。

線上系統的某些商業指標在離線評估中無法計算。

劃分實驗組和對照組

holdout檢驗

將原始的樣本集合隨機劃分 成訓練集和驗證集兩部分。

缺點 即在驗證集上計算出來的最後評估指標與原始分組有很大關係。

交叉檢驗

k-fold交叉驗證: 首先將全部樣本劃分成k個大小相等的樣本子集; 依次遍歷這k個子集, 每次把當前子集作為驗證集, 其餘所有子集作為訓練集, 進行模型的訓練和評估; 最後把k次評估指標的平均值作為最終的評估指標。

在實際實驗中, k經常取10。

自助法當樣本規模比較小時, 將樣本集進行劃分會讓訓練集進一步減小, 這可能會影響模型訓練效果。

對於總數為n的樣本集合, 進行n次有放回的隨機抽樣, 得到大小為n的訓練集。 n次取樣過程中, 有的樣本會被重複取樣, 有的樣本沒有被抽出過, 將這些沒有被抽出的樣本作為驗證集, 進行模型驗證, 這就是自助法的驗證過程。

當樣本數很大時, 大約有36.8%的樣本從未被選擇過, 可作為驗證集。

網格搜尋

網格搜尋法一般會先使用較廣的搜尋範圍和較大的步長, 來尋找全域性最優值可能的位置。

然後會逐漸縮小搜尋範圍和步長, 來尋找更精確的最優值。

可以降低所需的時間和計算量, 但由於目標函式一般是非凸的, 所以很可能會錯過全域性最優值。

隨機搜尋

如果樣本點集足夠大, 那麼通過隨機取樣也能大概率地找到全域性最優值, 或其近似值。

和網格搜尋的快速版一樣, 它的結果也是沒法保證的。

貝葉斯優化演算法

通過對目標函式形狀進行學習, 找到使目標函式向全域性最優值提公升的引數。

貝葉斯優化演算法會在探索和利用之間找到乙個平衡點, 「探索」就是在還未取樣的區域獲取取樣點;而「利用」則是根據後驗分布在最可能出現全域性最值的區域進行取樣。

降低過擬合的方法

獲得更多的訓練資料。更多的樣本能夠讓模型學習到更多更有效的特徵, 減小雜訊的影響。

降低模型複雜度。

正則化方法。

整合學習方法。

降低欠擬合的方法

新增新特徵。挖掘「上下文特徵」「id類特徵」「組合特徵」等新的特徵,因子分解機、梯度提公升決策樹、 deep-crossing等都可以成為豐富特徵的方法。

增加模型複雜度。

減小正則化係數。

模型評估與優化 2

損失函式 loss function 是用來估量模型的 值與真實值的不一致程度,是乙個非負實值函式。損失函式越小,模型的魯棒性就越好。平方損失函式 絕對值損失函式 對數損失函式 對數損失函式 cross entropy loss 該損失函式用到了極大似然估計的思想。p y x 通俗的解釋就是 在當前...

機器學習筆記 2 模型評估

訓練資料分層 將總資料集劃分為 訓練集 用來訓練模型,模型的迭代和優化 驗證集 調整超引數,優化模型 用來調參 測試集 不參與訓練流程,監測模型效果 經驗誤差 vs 泛化誤差 經驗誤差 在訓練集上面的誤差 對應訓練集資料 泛化誤差 在 未來 樣本上的誤差 對應測試集資料 問題 驗證集是用來做什麼的?...

ML chapter2模型選擇與評估

經驗誤差 學習器在訓練集上的誤差稱為經驗誤差 2.過擬合 學習器的經驗誤差降低,同時泛化效能也跟著下降。評估方法 劃分訓練集和測試集 1.留出法 資料劃分成互斥的兩組,並盡可能保證資料分布的一致性,避免因為劃分過程引入的偏差而對結果產生影響。同時,單次使用留出法得到的估計結果往往不夠穩定,一般採用若...