有這樣乙個問題,損失函式和評價指標都是來評判模型的好與不好,它們之間有什麼區別?
簡單區分可以理解為損失函式是用在模型訓練階段,用在梯度下降階段,做梯度更新,來讓損失函式最小化。
評價指標是用在測試階段,也就是判斷生成的模型的好壞,評價指標有很多種,會單獨寫一篇文章。
什麼是損失函式?
在有監督學習中,真實值與**值不一致的程度,叫做損失函式。
損失函式各種各樣,沒有哪乙個說適合所有的網路模型,損失函式的選取依賴於引數的數量、異常值、機器學習演算法、梯度下降的效率、導數求取的難易和**的置信度等若干方面。
損失函式分類
經驗風險:**結果與實際結果的差值
結構風險:經驗風險 + 正則項
還有一種分類方法,從解決的問題看:回歸和分類問題。
常見的損失函式
回歸問題
均方誤差 – l2損失
思想:**值與真實值之差的平方和公式mse
=∑i=
1n(y
i−yi
p)2n
mse = \frac^(y_i-y_i^)^2}
mse=n∑
i=1n
(yi
−yi
p)2
對應的曲線圖:
從圖中可以看出,誤差的絕對值越大,損失函式越大,所以我們的目標就是讓誤差變得盡可能小。
平方絕對誤差 – l1損失
思想:**值與真實值之差的絕對值和公式mae
=∑i=
1n∣y
i−yi
p∣nmae = \frac^|y_i-y_i^|}
mae=n∑
i=1n
∣yi
−yi
p∣
對應曲線圖
分類問題
交叉熵損失
二分類問題:模型最後需要**的結果只有兩種情況,對於每個類別我們的**得到的概率為 p
pp和1−p
yi 樣本的標籤,正類 1, 負類 0。
p
ip_i
pi 樣本i**為正的概率。
邏輯回歸演算法的損失函式。
多分類問題:
mm 類別的數量;
y ic
y_yi
c指示變數(0或
1)(0或1)
(0或1
),如果該類別和樣本i的類別相同就是1,否則是0;
p ic
p_pi
c對於觀測樣本i
ii屬於類別c
cc的**概率。
在神經網路做分類問題時,經常使用交叉熵作為損失函式,由於交叉熵涉及到計算每個類別的概率,所以交叉熵幾乎每次都和sigmoid(或softmax)函式一起出現。
計算過程:
神經網路最後一層輸出每個類別的logits
值;
該值經過sigmoid(或softmax)函式獲得概率輸出;
模型**的類別概率輸出與真實類別的one hot形式進行交叉熵損失的計算。
指數損失
l (y
,f(x
))=e
−yf(
x)l(y,f(x)) = e^
l(y,f(
x))=
e−yf
(x) 對離群點、雜訊非常敏感。經常用在adaboost演算法中。
hinge損失
hinge損失函式表示如果被分類正確,損失為0,否則損失就為1−y
f(x)
1-yf(x)
1−yf(x
) 一般 f(x
)f(x)
f(x)
是**值,取值範圍[−1
,1][-1,1]
[−1,1]
,y
yy是目標值,−1或
者1-1或者1
−1或者
1,即f(x
)f(x)
f(x)
在− 1-1
−1和1
11之間就可以了,不鼓勵 ∣f(
x)∣>
1|f(x)|>1
∣f(x)∣
>
1,並不鼓勵分類器過度自信,讓某個正確分類的樣本距離分割線超過1並不會有任何獎勵,從 而使分類 器可以更專注於整體的誤差,用在svm演算法中
交叉熵函式與最大似然函式的聯絡和區別
區別:交叉熵函式使用來描述模型**值和真實值的差距大小,越大代表越不相近;似然函式的本質就是衡量在某個引數下,整體的估計和真實的情況一樣的概率,越大代表越相近。
聯絡:交叉熵函式可以由最大似然函式在伯努利分布的條件下推導出來,或者說最小化交叉熵函式的本質就是對數似然函式的最大化。
機器學習之 損失函式和風險函式
損失函式 監督學習問題是在假設的空間f中選取模型 f 作為決策函式,對於給定的輸入 x,由 f x 給定輸出y,這個輸出的 值與真實值 y可能不一致,用乙個函式來度量 錯誤的程度表示這種不一致,這個函式就是損失函式或者代價函式 通常的損失函式如下 損失函式值越小,模型越好 由於模式的輸入,輸出 x,...
機器學習(四) 損失函式
在上上一節邏輯回歸中,是使用似然函式來作為模型的求解引數的目標。但在很多情況下,似然函式很難直接寫出,更常用的方法是損失函式,這個在上上一節的補充中也有提過。那麼損失函式表示什麼概念呢?和似然函式相反,損失函式是模型 失敗的度量。注意最大化似然函式和最小化損失函式兩者並不能完全等同,因為這涉及到所選...
機器學習損失函式梳理
沒有乙個適合所有機器學習演算法的損失函式。針對特定問題選擇損失函式涉及到許多因素,比如所選機器學習演算法的型別 是否易於計算導數以及資料集中異常值所佔比例。下文中總結了機器學習中比較重要的損失函式。均方誤差 mse 度量的是 值和實際觀測值間差的平方的均值。它只考慮誤差的平均大小,不考慮其方向。但由...