線性回歸的損失函式為什麼用最小二乘不用似然函式?

2021-08-19 03:50:50 字數 732 閱讀 6306

簡單的說,是因為使用平方形式的時候,使用的是「最小二乘法

」的思想,這裡的「二乘

」指的是用平方來度量觀測點與估計點的距離(遠近),「最小

」指的是引數值要保證各個觀測點與估計點的距離的平方和達到最小。

最小二乘法以估計值與觀測值的平方和作為損失函式,在誤差服從正態分佈的前提下,與極大似然估計的思想在本質上是相同。

我們通常認為

ε服從正態分佈,

通過對極大似然公式的推到,結果真是最小二乘的式子。

在實際任務中,我們將從資料集,i = 1,2.......,n,中學習出乙個模型f(x)。資料集可以認為是從理想的模型f(x)中取樣,並新增高斯雜訊而形成。

從這個角度看,資料集中的每乙個點(xi,yi)均服從於均值為f(xi),方差為某一固定值的高斯分布。所以資料(xi, yi)概率如下:

而判斷乙個模型是否足夠接近理想模型,可以比較資料集在當前模型下出現的概率,也就是大家熟悉的極大似然估計了。所以,我們的目標就是極大化資料集的對數似然函式。此處就不繼續展開,往下的推導就是一般的極大似然法。通過化簡後,我們會發現,極大化資料集的對數似然函式,其實等價於最小化在資料集上,標籤yi與模型**值f(xi)差的平方和。

從平方和誤差函式的數學背景可以看到,選用平方和誤差函式,實際上是基於極大似然法。而極大似然法,天生自帶過擬合的屬性。所以這也是為什麼在訓練階段,追求模型在訓練集上的準確率時,模型容易過擬合的本質原因。而控制模型複雜度、調節引數等等操作,都是在過擬合與準確率之間做乙個權衡。

損失函式為什麼用平方形式

這兩種形式本質上是等價的。只是mse計算得到的值比sse計算得到的值要小,因為除了乙個n。誤差平方和以及均方差的公式中有係數1 2,是為了求導後,係數被約去。它們都是平方形式,乙個重要原因是 誤差的平方形式是正的,是正數。這樣正的誤差和負的誤差不會相互抵消。這就是為什麼不用一次方,三次方的原因。但是...

損失函式為什麼用平方形式(二)

我們在以前談過 線性回歸損失函式為什麼要用平方形式 除了這篇文章中提到的理由外。還有什麼依據呢?平方形式的損失函式一般為 c 12 i 1n yi y i 2 這稱為sse the sum of squares due to error 誤差平方和。還有一種稱為mse mean squared er...

線性回歸損失函式為什麼要用平方形式

我們在前面的 線性回歸 中了解到,對於訓練資料樣本 x i,yi 我們有如下的擬合直線 y i 0 1 xi我們構建了乙個損失函式 c i 1 n yi y i 2表示每個訓練資料點 x i,yi 到擬合直線y i 0 1 xi的豎直距離的平方和,通過最小化這個損失函式來求得擬合直線的最佳引數 實際...