交叉熵刻畫的是實際輸出(概率)與期望輸出(概率)的距離,也就是交叉熵的值越小,兩個概率分布就越接近,即擬合的更好。
kl散度如下圖所示:
當p分布是已知,則熵是常量;於是交叉熵和kl散度則是等價的。
最小化kl散度和模型採用最大似然估計進行引數估計又是一致的。(可以從公式推導上證明)
最小化交叉熵即最小化kl散度,即最小化實際與預估之間的差距,這與最大似然的目的是一致的。即最大似然與交叉熵在目標上一致,只是由於正負號,而導致乙個為最小化(交叉熵,前面有負號),乙個為最大化(最大似然)
交叉熵,kl散度,極大似然三者的聯絡:
交叉熵是已經有了兩個確定的分布,然後來計算兩個分布之間的差距。而最大似然是我已經有了一些觀察資料,希望求解出乙個分布來最大化的出現觀測資料。區別是乙個分布已知乙個是未知。
最大似然估計 極大似然估計
目錄最大似然估計 個人部落格 對於最大似然估計我們使用最簡單的拋硬幣問題來進行講解當我們拋一枚硬幣的時候,就可以去猜測拋硬幣的各種情況的可能性,這個可能性就稱為概率一枚質地均勻的硬幣,在不考慮其他情況下是符合二項分布的,即正面和翻面的概率都是0.5,那麼我們拋10次硬幣5次正面在上面的概率為 但是現...
似然函式與最大似然估計
概率用於在已知一些引數的情況下,接下來的觀測所得到的結果,而似然性則是用於在已知某些觀測所得到的結果時,對有關事物性質的引數進行估計。是一種關於統計模型中引數的函式。例如,已知有事件a發生,運用似然函式,我們估計引數b的可能性。表明在已知觀測結果情況下,似然函式的值越高,該引數值可使模型越合理。最大...
最大熵模型與最大似然估計
最近在回顧李航的統計學習方法 1 看到這一章,準備好好梳理一下,更加深入地理解原理以及背後的思想.作者在這一章介紹了最大熵模型並且推導了對偶函式的極大化等價於最大熵模型的極大似然估計,面對一大堆的概念,我重新回顧了一遍其中相關的內容.最大熵原理是在 1957 年由 e.t.jaynes 提出的,其主...