我們在前面的《線性回歸》中了解到,對於訓練資料樣本(x
i,yi
) ,我們有如下的擬合直線: yˆ
i=θ0
+θ1∙
xi我們構建了乙個損失函式: c=
∑i=1
n(yi
−yˆi
)2表示每個訓練資料點(x
i,yi
) 到擬合直線yˆ
i=θ0
+θ1∙
xi的豎直距離的平方和,通過最小化這個損失函式來求得擬合直線的最佳引數
θ ,實際上就是求損失函式c在取得最小值情況下
θ 的值。那麼損失函式為什麼要用平方差形式呢,而不是絕對值形式,一次方,三次方,或四次方形式?
簡單的說,是因為使用平方形式的時候,使用的是「最小二乘法」的思想,這裡的「二乘」指的是用平方來度量觀測點與估計點的距離(遠近),「最小」指的是引數值要保證各個觀測點與估計點的距離的平方和達到最小。
最小二乘法以估計值與觀測值的平方和作為損失函式,在誤差服從正態分佈的前提下,與極大似然估計的思想在本質上是相同。對於極大似然估計,可以參考下前期文章《極大似然估計》。
我們設觀測輸出與預估資料之間的誤差為: εi
=yi−
yˆi
我們通常認為
ε 服從正態分佈,即: f(
εi;u
,σ2)
=1σ2
π−−√
∙exp[−
(εi−
u)22
σ2]
我們求的引數
ε 的極大似然估計(u
,σ2)
,即是說,在某個(u
,σ2)
下,使得服從正態分佈的
ε 取得現有樣本εi
的概率最大。那麼根據極大似然估計函式的定義,令: l(
u,σ2
)=∏i
=1n1
2π−−
√σ∙exp(−
(εi−
u)22
σ2)
取對數似然函式:
logl(u
,σ2)
=−n2
logσ2−
n2log2π−
∑i=1
n(εi
−u)2
2σ2
分別求(u,
σ2) 的偏導數,然後置0,最後求得引數(u
,σ2)
的極大似然估計為: u=
1n∑i
=1nε
i σ2
=1n∑
i=1n
(εi−
u)2
yˆi=
θ0+θ
1∙xi
,實質上是求預估值yˆ
i 與觀測值yi
之間的誤差εi
最小(最好是沒有誤差)的情況下
θ 的值。而前面提到過,
ε 是服從引數(u
,σ2)
的正態分佈,那最好是均值
u 和方差
σ趨近於0或越小越好。即: u=
1n∑i
=1nε
i=1n
∑i=1
n(yi
−yˆi
) 趨近於0或越小越好 σ2
=1n∑
i=1n
(εi−
u)2=
1n∑i
=1n(
yi−y
ˆi−u
)2≈1
n∑i=
1n(y
i−yˆ
i)2
而這與最前面構建的平方形式損失函式本質上是等價的。
為什麼邏輯回歸要用sigmoid函式
為什麼邏輯回歸要用sigmoid函式 sigmoid是推導出來的,不是假設出來的,lr的假設是兩個類服從均值不等,方差相等的高斯分布,然後通過貝葉斯決策推導 為什麼假設服從高斯分布 1 因為高斯分布是比較容易處理的分布 2 從資訊理論的角度上看,當均值和方差已知時 儘管你並不知道確切的均值和方差,但...
邏輯回歸為什麼使用對數損失函式
在前面介紹的 邏輯回歸是個什麼邏輯 中,我們構建的邏輯回歸模型是 p y 1 x 11 e t x 在模型的數學形式確定後,剩下的就是如何去求解模型中的引數 而在已知模型和一定樣本的情況下,估計模型的引數,在統計學中常用的是極大似然估計方法。即找到一組引數 使得在這組引數下,樣本資料的似然度 概率 ...
線性回歸的損失函式與邏輯回歸的損失函式
xi yi 我們有如下的擬合直線 yi xi構建的損失函式是 c i 1 n yi yi 2表示每乙個訓練點 x i,yi 到擬合直線yi xi的豎直距離的平方和,通過最小化上面的損失函式可以求得擬合直線的最佳引數 這裡的損失函式之所以使用平方形式,是使用了 最小二乘法 的思想,這裡的 二乘 指的是...