模型評估與優化 2

2021-10-05 04:48:15 字數 1293 閱讀 1844

損失函式(loss function):是用來估量模型的**值與真實值的不一致程度,是乙個非負實值函式。損失函式越小,模型的魯棒性就越好。

平方損失函式/絕對值損失函式

對數損失函式

對數損失函式 (cross entropy loss): 該損失函式用到了極大似然估計的思想。p(y│x)通俗的解釋就是:在當前模型的基礎上,對於樣本x,其**值為y,也就是**正確的概率。由於概率之間的同時滿足需要使用乘法,為了將其轉化為加法,取對數。最後由於是損失函式(log函式)是遞增的函式,p越大,所以函式值越大。進而**正確的概率越高,其損失值應該越小,因此公式前加負號取反。

**鉸鏈損失函式 (hinge loss):** 

主要用於svm中,有時候也被稱為最大邊界損失 (max-margin loss),損失函式的標準形式為:

 無約束優化

 等式約束的優化

 不等式約束的優化

模型評估概述

交叉驗證法

 測試集是對模型的單次評估,無法完全展現評估結果的不確定性。

 將大的測試集劃分成測試集和驗證集會增加模型效能評估的偏差。

 分割的測試集樣本規模太小。

 模型可能需要每乙個可能存在的資料點來確定模型值。

 不同測試集生成的結果不同,造成測試集具備極大的不確定性。

 重取樣方法可對模型在未知樣本上的效能進行更合理的**。

 因此實際應用中,會選擇k-折交叉驗證法的方式來評估模型,其偏差低,效能評估變化小。

混淆矩陣

p:正元組,感興趣的主要類的元組。

n:負元組,其他元組。

tp:真正例,被分類器正確分類的正元組。

tn:真負例,被分類器正確分類的負元組。

fp:假正例,被錯誤地標記為正元組的負元組。

fn:假負例,被錯誤地標記為負元組的正元組。

模型優化評估

這個咋翻譯呢,線性擴充基?無所謂其實,這裡主是用它來處理因變數 和 自變數 的非線性關係的 是指通過對資料進行轉換來擴充或替換資料集的的特徵.我最初的資料分析工具是r語言嘛,當時沒有接觸ml這些什麼正則的概念,就統計學理論.在做線性模型的時候,擬合的不是很好,我當時真的就憑感覺,給方程加上一些高階項...

2 模型評估

準確率的侷限性 準確率是指分類正確的樣本佔總樣本個數的比例。當不同類別的樣本比例非常不均衡時,可以使用更為有效的平均準確率 每個類別下的樣本準確率的算術平 均 作為模型評估的指標。精確率與召回率 精確率是指分類正確的正樣本個數佔分類器判定為正樣本的樣本個數的比例。召回率是指分類正確的正樣本個數佔真正...

ML chapter2模型選擇與評估

經驗誤差 學習器在訓練集上的誤差稱為經驗誤差 2.過擬合 學習器的經驗誤差降低,同時泛化效能也跟著下降。評估方法 劃分訓練集和測試集 1.留出法 資料劃分成互斥的兩組,並盡可能保證資料分布的一致性,避免因為劃分過程引入的偏差而對結果產生影響。同時,單次使用留出法得到的估計結果往往不夠穩定,一般採用若...