神經網路之損失函式

2021-10-10 10:32:49 字數 1291 閱讀 1255

1.兩種損失函式對比

目前在神經網路的訓練學習過程中,最常用的有兩種損失函式:均方誤差和交叉熵。yi為真實標籤,yi尖為**標籤,二者定義如下:

均方誤差:

分別計算二者梯度;

均方誤差:

交叉熵:

由上面推到可以看出,均方誤差的梯度還和啟用函式的梯度有關,啟用函式梯度越大,均方誤差收斂速度越快但當sigmod值很高時,梯度非常小,訓練速度就會下降。而交叉熵只跟真實標籤和**標籤的差距相關,所以目前神經網路模型中多採用交叉熵作為損失函式。

2.交叉熵損失函式

什麼是資訊熵?

資訊熵就是表示所有資訊量的平均值。

資訊熵的定義如下:

如下例子計算明天天氣的資訊熵:

事件概率

資訊量明天下雨

0.2-log(0.2)

明天陰天

0.3-log(0.3)

明天晴天

0.5-log(0.5)

h(x)= - (0.2log(0.2) + 0.3log(0.3) + 0.5*log(0.5))

什麼是相對熵(kl散度)?

kl散度是用來衡量兩個分布的相似度,定義如下,並作進一步展開:

從推到來看:kl散度=交叉熵-資訊熵,所以交叉熵可以理解為kl散度和資訊熵之和。在機器學習中,輸入資料和標籤都是固定的,因此資訊熵也是個定值,需要最小化的就是kl散度,kl散度計算公式也很簡單,因此常用交叉熵作為損失函式。

神經網路之損失函式

對於損失函式一直處於混亂理解的狀態,l2 1 2 a y 2 對於其他的類似於交叉資訊熵感覺很高大上的樣子,但是到底是怎麼回事呢?今天我就一 竟!我們都知道,神經網路模型訓練得以實現是經過前向傳播計算loss,根據loss的值進行反向推到,進行相關引數的調整。可見,loss是指導引數進行調整的方向性...

神經網路損失函式

2018,aug 3 顧名思義,從標題就能知道損失函式 loss function 一定就是來計算神經網路在訓練中的損失的。說完了定義那到了舉例時間了 主要拿softmax loss來分析 這裡的k也就是我們分類的類別。然後這個函式是怎麼用的呢,我們可以簡單的舉乙個分類的例子來看下。假設我們輸入一張...

神經網路 損失函式

開始之前我們先進入數字識別這樣乙個場景 以識別數字1為例,神經網路模型的輸出結果越接近 0,1,0,0,0,0,0,0,0,0 越好。神經網路解決多分類的問題,最常見的方法是設定n個輸出節點,其中n類別個數,那麼上述數字判斷就應該有n 10個輸出。那麼如何判斷乙個輸出向量和期望向量的接近程度呢?交叉...