在機器學習中,損失函式是用來衡量**結果與實際值之間差別大小的指標。一般的損失函式有5五種:l(
m)={
01ifm
≥0ifm
<0
主要用於maximum-margin的分類演算法,如svm演算法。hinge損失函式的描述如下式:l(
y)=max(0
,1−t
˙y)
這裡t=1
or−1
,y是**值, 而t
是實際真實值,可以看出,當分類正確時,
y 和
t會有相同的符號且|y
|⩾1
(|y|
>
1 表示:相比於支援向量,該點距離分類邊界更遠),
此時損失函式l(
y)的值為0;
分類錯誤時,
y 和
t符號相反, l(
y)將隨y變大。
主要用於邏輯回歸演算法(logistric regression),在kaggle比賽裡面衡量演算法效能的指標往往是logloss。表示式如下:lo
glos
s=−1
n∑i=
1n∑j
=1my
ijlog(pi
j)這裡
n 是樣本的數量,
m是類別數量,yi
j 和pi
j 都是二值型標誌位,表示第i個樣本是否屬於第j類,
y 表示真實值,
p表示**值。logloss越**明演算法越好。在實際程式設計應用中注意新增乙個冗餘項(1
e−15)
之類的,避免出現
log0
這樣的情況。
主要用於線性回歸(liner regression),平方損失也可以理解為最小二乘法,基本原則很好理解,即最優擬合曲線應該是是點到回歸曲線的距離和最小的直線,也就是平方和最小,表示式如下:l(
y,f(
x))=
∑i=1
n(yi
−f(x
i))2
這裡n 是樣本的數量,
y是真實值,f(
x)是**值。
主要用於boosting演算法,對於擁有
n 個樣本的情況下,指數損失的函式表示式如下:l(
y,f(
x))=
1n∑i
=1nexp[−
yif(
xi)]
y 是真實值,f(
x)是**值。
score函式 機器學習 機器學習(一) 損失函式
優化是應用數學的乙個分支,也是機器學習的核心組成部分。實際上 機器學習演算法 模型表徵 模型評估 優化演算法其中,優化演算法起到的作用就是在模型表徵空間中找到模型評估指標最好的模型。不同的模型表徵和模型評估通常使用著不同的優化演算法。因此,為了利用優化演算法來對模型進行優化,我們通常需要給出乙個模型...
機器學習中的損失函式
監督學習問題是在假設空間中選取模型作為決策函式,對於給定的輸入x,由f x 給出對應的輸出y,這個輸出的 值可能與真實值一致或不一致,可以用損失函式 loss function 或代價函式 cost function 來度量 錯誤的程度。f x 1,y f x 0,y f x f x 1 y f x...
機器學習 機器學習目錄
注 後期有時間的話會對每乙個演算法進行講解。1 普通線性回歸 2 廣義線性模型 3 邏輯回歸 4 線性判定分析1 決策樹基本原理與構建 2 cart演算法 3 回歸決策樹 4 分類決策樹1 貝葉斯定理與樸素貝葉斯 2 高斯貝葉斯分類器 3 多項式貝葉斯分類器 4 伯努利貝葉斯分類器 5 遞增式學習1...