交叉熵與極大似然估計

2021-10-01 16:00:13 字數 501 閱讀 9783

在機器學習中常用到交叉熵損失函式,其**於資訊理論,用以描述兩個兩個分布之間的差異。為便於理解,下面描述幾個相關定義。

假設x為乙個離散隨機變數,則x=x0的自資訊(可理解為x=x0發生所攜帶的資訊)為:

單自資訊只處理單個輸出,為描述整個概率分布的不確定性總量,我們定義熵:

其表示遵循該分布的事件所產生的期望資訊量總和(不確定性總量越大,則資訊總量越大)。

假設對於同一隨機變數x,我們有兩個單獨的概率分布p(x)和q(x),現定義乙個kl散度用以描述這兩個分布之間的差異:

kl散度是非負的,但其並非真正代表兩個分布之間的距離,因為它不是對稱的。和kl散度密切聯絡的是交叉熵:

所以針對q最小化交叉熵等價於最小化kl散度,因為q不影響h(p)。若p(x)為資料原始分布,則使交叉熵最小的分布q(x)即是與p(x)最接近的分布。

現考慮乙個分布p(x),我們從中隨機取一些樣本最大化似然函式即:

可以看到最小化交叉熵和最大似然函式的結果是一樣的。

最大似然估計 交叉熵與最大似然估計的聯絡

交叉熵刻畫的是實際輸出 概率 與期望輸出 概率 的距離,也就是交叉熵的值越小,兩個概率分布就越接近,即擬合的更好。kl散度如下圖所示 當p分布是已知,則熵是常量 於是交叉熵和kl散度則是等價的。最小化kl散度和模型採用最大似然估計進行引數估計又是一致的。可以從公式推導上證明 最小化交叉熵即最小化kl...

最大似然估計 極大似然估計

目錄最大似然估計 個人部落格 對於最大似然估計我們使用最簡單的拋硬幣問題來進行講解當我們拋一枚硬幣的時候,就可以去猜測拋硬幣的各種情況的可能性,這個可能性就稱為概率一枚質地均勻的硬幣,在不考慮其他情況下是符合二項分布的,即正面和翻面的概率都是0.5,那麼我們拋10次硬幣5次正面在上面的概率為 但是現...

極大似然估計

在機器學習的領域內,極大似然估計是最常見的引數估計的方法之一,在這裡整理一下它的基本原理。極大似然估計從根本上遵循 眼見為實,這樣的哲學思想。也就是說,它嚴格地僅僅利用了已知的實驗結果,來估計概率模型中的引數。極大似然估計的計算過程非常簡單 1.寫出似然函式 2.求出使得似然函式取最大值的引數的值,...