(xi
,yi)
,我們有如下的擬合直線: yi
ˆ=θ⋅
xi構建的損失函式是: c=
∑i=1
n(yi
−yiˆ
)2表示每乙個訓練點(x
i,yi
) 到擬合直線yi
ˆ=θ⋅
xi的豎直距離的平方和,通過最小化上面的損失函式可以求得擬合直線的最佳引數
θ 。
這裡的損失函式之所以使用平方形式,是使用了「最小二乘法」的思想,這裡的「二乘」指的是用平方來度量觀測點與估計點的距離(遠近),「最小」指的是引數值要保證各個觀測點與估計點的距離的平方和達到最小。
第二種解釋是 極大似然估計誤差的思想,暫時沒搞明白,先保留。參考:
邏輯回歸的損失函式使用的是對數損失函式,而不是平方損失函式。平方損失函式是線性回歸在假設樣本滿足高斯分布的條件下推導得到的,而邏輯回歸假設樣本服從伯努力分布(0-1分布)。
伯努利分布的概率質量函式pmf為: p(
x=n)
={p1
−p,n
=1,n
=0 l
(y,p
(y|x
))=−
logp(y
|x) 這個對數損失函式的意思是指分類為y的情況下,使p(y|x)達到最大。若模型是用最大概率的分類來做**的,而y是代表分類為正確的分類,而p(y|x)則是代表正確分類的概率,那對數取反就是p(
y|x)
越大,損失函式就越小。p(
y|x)
=1時,損失就降為0,不可能再低了。
伯努利分布的似然函式可以寫成: l(
θ)=∏
i=1m
p(y=
1|xi
)yip
(y=0
|xi)
1−yi
對數似然函式為:
logl(θ
)=∑i
=1m[
yilogp(y
=1|x
i)+(
1−yi
)log(1
−p(y
=1|x
i))]
其中的一項即為對數損失,在邏輯回歸中可表示為: l(
y,p(
y|x)
)=−logp(
y|x)
=yilogp(
y|x)
+(1−
yi)log(1
−p(y
|x))
其中 p(
y|x)
=p(y
=1|x
) 。
損失函式的影象如下所示:
邏輯回歸p(
y=y|
x)表示式如下,符合伯努利分布: p(
x=y|
x)=⎧
⎩⎨hθ
(x)=
g(f(
x))=
11+e
xp(−
f(x)
)1−h
θ(x)
=1−g
(f(x
))=e
xp(−
f(x)
)1+e
xp(−
f(x)
),y=
1,y=
0 對數損失函式的標準形式為: l(
y,p(
y|x)
)=−log(y
|x)
將邏輯回歸的表示式帶入對數損失函式中,可以得到: l(
y,p(
y=y|
x))=
{log(h
θ(x)
)log(1
−hθ(
x)),
y=1,
y=0
將上式進行化簡,可以得到最終的目標函式: j(
θ)=−
1m∑i
=1m[
yilog(hθ
(xi)
)+(1
−yi)
log(1−
hθ(x
i))]
參考:
邏輯回歸損失函式
眾所周知,二分類問題的損失函式為 其中y代表標籤值 0,1 h x 代表通過假設假設函式 sigmoid 函式 計算出的函式值 概率 sigmoid 函式的取值區間為 0,1 當標籤值為1時,h x 的值為 y為1的概率,這個值越靠近0,logh x 的值就會越大,從而對loss值的懲罰也就越大 反...
線性回歸與邏輯回歸
cost functionj 12m i 1m h x i y i hypothesish x tx 梯度下降求解 為了最小化j j j 1m i 1m h x i y i x i j 每一次迭代更新 j j 1m i 1m h x i y i x i j 正規方程求解 最小二乘法 xtx 1x t...
線性回歸與邏輯回歸的區別
以經典的 房價為例,假設樣本為 x,y ix,y i x,yi 其中x是多維變數 x x1,x 2.xn x x 1,x 2.x n x x1 x2 x n 屬性包括房子大小,使用年限等,y是對應該樣本的房價。那麼我們就可以得到乙個 房價的假設模型,h x txh theta x theta t x...