交叉熵與Softmax

2022-06-26 16:45:10 字數 880 閱讀 8423

分類問題中,交叉熵常與softmax結合使用,交叉熵能夠衡量同乙個隨機變數中的兩個不同概率分布的差異程度,在機器學習中就表示為真實概率分布與**概率分布之間的差異。交叉熵的值越小,模型**效果就越好。

「資訊是用來消除隨機不確定性的東西」,資訊量大小與資訊發生的概率成反比,概率越大,資訊量越小;概率越小,資訊量越大。

資訊量:i(x)=−log(p(x))

資訊熵用來表示資訊量的期望: 

如果對於同乙個隨機變數x有兩個單獨的概率分布p(x)和q(x),則我們可以使用kl散度來衡量這兩個概率分布之間的差異。kl值越小表示兩個概率分布更加接近。

交叉熵

softmax常作為輸出層的激勵函式,這樣輸出層的加和為1。

softmax求導

即yi-1就是反向更新的梯度。

Softmax函式與交叉熵

在logistic regression二分類問題中,我們可以使用sigmoid函式將輸入wx b對映到 0,1 區間中,從而得到屬於某個類別的概率。將這個問題進行泛化,推廣到多分類問題中,我們可以使用softmax函式,對輸出的值歸一化為概率值 這裡假設在進入softmax函式之前,已經有模型輸出...

softmax和交叉熵

softmax用於多分類過程中,往往加在神經網路的他將多個神經元的輸出,對映到 0,1 區間內,看成概率來解,這些值的累和為1,在選取輸出節點的時候選取概率最大的節點作為我們的 目標,從而進行多分類。softmax 相關求導 當對分類的loss進行改進時,我們通過梯度下降,每次優化乙個step大小的...

全面理解softmax與交叉熵

交叉熵最早起源於資訊理論,1948 年,夏農提出了 資訊熵 sh ng 的概念,才解決了對資訊的量化度量問題。一條資訊的資訊量大小和它的不確定性有直接的關係。比如說,我們要搞清楚一件非常非常不確定的事,或是我們一無所知的事情,就需要了解大量的資訊。相反,如果我們對某件事已經有了較多的了解,我們不需要...