均方誤差損失函式

2022-06-18 12:00:12 字數 815 閱讀 7926

假設我們的模型是二維平面的線性回歸模型:

,對於這個模型,我們定義損失函式為mse,將得到如下的表示式:

下面我們試著通過概率的角度,推導出上述的mse損失函式表示式。

為了使模型更合理,我們假設

服從均值為0,方差為1的高斯分布,即

。所以有:

所以,y服從均值為

,方差為1的高斯分布,則樣本點的

概率為:

有了單個樣本的概率,我們就可以計算樣本集的似然概率,我們假設每個樣本是獨立的:

對似然函式取對數,得到對數似然函式:

這個對數似然函式的形式和我們的mse損失函式的定義是一樣的。所以,使用mse損失函式意味著,我們假設我們的模型是對雜訊的輸入做估計,該雜訊服從高斯分布。

使用mse的乙個缺點就是其偏導值在輸出概率值接近0或者接近1的時候非常小,這可能會造成模型剛開始訓練時,偏導值幾乎消失。

假設我們的mse損失函式為:

,偏導為:

,其中為

。可以看出來,在

值接近0或者1的時候,

的值都會接近於0,其函式影象如下:

這導致模型在一開始學習的時候速率非常慢,而使用交叉熵作為損失函式則不會導致這樣的情況發生。

ref:

致敬原作者)

代價函式 均方誤差MSE

a 我們可以從sigmoid啟用函式的導數特性圖中發現,當啟用值很大的時候,sigmoid的梯度 就是曲線的斜率 會比較小,權重更新的步幅會比較小,這時候網路正處在誤差較大需要快速調整的階段,而上述特性會導致網路收斂的會比較慢 b 而當啟用值很小的時候,sigmoid的梯度會比較大,權重更新的步幅也...

方差 標準差(均方差),均方誤差 均方根誤差

方差 variance 標準差 均方差,standard deviation 均方誤差 mse 均方根誤差 rmse 其中,標準差是方差的平方根,均方根誤差是均方誤差的平方根 所以,這四個概念的區別可以簡化為方差 variance 和均方誤差 mse 的區別 方差 variance 描述的是一組資料...

均方誤差和交叉熵誤差

均方誤差個交叉熵誤差都是常用的損失函式之一。損失函式是用來表示神經網路效能的 惡劣程度 的指標。即當前神經網路對監督資料在多大程度上不擬合,在多大 程度上不一致。說白了,即所建立的神經網路對輸入資料的 輸出值與監督資料 實際輸出值 的差距。上面是計算公式,其中yk表示神經網路的 輸出值,tk表示監督...