《elasticsearch權威指南》
我們知道對於回歸問題一般採用均方差來計算損失,這是因為回歸輸出的是乙個實數,這樣來計算乙個batch中**值與實際的均方差是自然而然的選擇的,而且導數非常簡單(神經網路引數的更新依據就是梯度也就是偏導),這裡不再推導均方差的偏導。
但對於分類問題,輸出的是乙個n維的向量,向量的每個值是對應分類的概率,概率最大的就是**的分類結果。樣本的標籤值也是乙個概率分布,表情衡量兩個概率分布之間的距離當然就是交叉熵,但是神經網路的輸出又不完全符合概率分布(概率分布的基本要素:所有事件概率和為1),這樣就引出的sotfmax函式,它的作用就是把輸出轉換成概率分布,以用來計算交叉熵損。之所以選用交叉熵還有乙個重要的原因就是梯度計算簡單(偏導數非常簡潔,神經網路的訓練是計算密集型,這樣可以提高訓練效率)。
z_為原始的神經網路輸出,經過sotfmax轉化為概率分布y_
損失函式交叉熵的計算公式:
梯度的推導過程如下:
看到最後的結果不是一般的簡單,而是非常簡單,梯度就是**值與標籤的差。所以輸出是概率分布或者可以轉化為概率分布的神經網路用交叉熵是非常合適的。
為什麼使用交叉熵作為損失函式?
如果概括性地回答這個問題,我們其實是希望得到最大似然 maximum likelihood 使得模型的 分布與資料的實際分布盡可能相近。而最大化log似然等同於最小化負log似然,最小化負log似然等價於最小化kl散度 相對熵 kl散度裡包含有只與資料集相關而與模型無關的log p da talog...
為什麼分類問題使用交叉熵損失函式?
理由一 kl散度 衡量兩個概率分布的差異 其中,h p q ip i l ogq i h p,q sum ip i log q i h p,q i p i log q i 是交叉熵 h p ip i log p i h p sum i p i log p i h p i p i l ogp i 是熵...
交叉熵損失函式 交叉熵損失函式和均方差損失函式引出
交叉熵 均方差損失函式,加正則項的損失函式,線性回歸 嶺回歸 lasso回歸等回歸問題,邏輯回歸,感知機等分類問題 經驗風險 結構風險,極大似然估計 拉普拉斯平滑估計 最大後驗概率估計 貝葉斯估計,貝葉斯公式,頻率學派 貝葉斯學派,概率 統計 記錄被這些各種概念困擾的我,今天終於理出了一些頭緒。概率...