PRML 1 5 資訊理論

2022-09-21 23:00:26 字數 1533 閱讀 1681

\(對於資訊內容的度量依賴於概率分布p(x),我們想要找到這麼乙個函式h(x),要滿足\)

\(1.它是概率p(x)的單調遞增函式\)

\(2.如果我們有兩個不相關的事件x和y,我們觀察到兩個事件同時發⽣時獲得的資訊應該等於觀察到事件各⾃發⽣時獲得的資訊之和,即h(x, y) = h(x) + h(y),兩個不相關事件是統計獨⽴的,因此p(x, y) = p(x)p(y)\)

\(所以能看出h(x)一定與p(x)的對數有關,我們所以有\)

\(h(x)=-log_2p(x)\) --1.92

\(底數不一定是2,只是按照傳統資訊理論,取,則h(x)的單位是\)bite(bit,binary digit)

\(現在假設⼀個傳送者想傳輸⼀個隨機變數的值給接收者。這個過程中,他們傳輸的平均資訊量通可以通過求公式(1.92)關於概率分布p(x)的期望得到。這個期望值為\)

\(\color\) --1.93

\(這就是熵\)entropy

\(如果ln 自然對數為底,則熵的單位是nat\)

熵是資訊的度量單位,熵越大資訊越混亂,越沒有意義,傳遞也越為困難,代價越大

\(可以證明(拉格朗日乘子法)當所有的p(x_i)都相等,且值為p(x_i) = \frac 時,熵取得最⼤值,m是狀態x_i的總數\)

\(即均勻分布下的熵最大,因為最為混亂,沒有意義\)

連續變數的熵稱為微分熵

\(最大化微分熵需要遵循下面三個限制\)

通過拉格朗日乘子法,解得

$因熵隨著分布寬度(\sigma^2的增加而增加)$

$這個結果也表明,與離散熵不同,微分熵是可以為負的$

$對於高斯分布的微分熵(1.110),當\sigma^2 < \frac時,h(x)<0$

\(假設我們有⼀個聯合概率分布p(x, y)。我們從這個概率分布中抽取了⼀對x和y。如果x的值已知,那麼需要確定對應的y值所需的附加的資訊就是- ln p(y | x)。因此,⽤來確定y值的平均附加資訊可以寫成\)

\(這被稱為給定x的情況下,y的條件熵。使⽤乘積規則,很容易看出,條件熵滿⾜下⾯的關係\)

\(其中,h[x, y]是p(x, y)的微分熵\color,h[x]是邊緣分布p(x)的微分熵。因此,描述x和y所需的資訊是描述x⾃⼰所需的資訊,加上給定x的情況下具體化y所需的\color。\)

PRML學習筆記 資訊理論與最大熵

資訊熵是人們對客觀事件的不確定性的度量。正如序中所言,對於乙個事物,我們知道的越有可能發生,那麼我們用來找出確定的情況所需要得到資訊就越少,反之亦然。此外,資訊熵還具有可加的性質。兩個事物如果是不相關的,如果我們同時得到的兩個事物,那麼我們所接收的資訊是可以疊加的。我們使用h x 表示事件發生概率為...

資訊理論筆記

i p log b p 當b 2,熵的單位是bit b e,熵的單位是nat b 10,熵的單位是hart p 1,i p 0 p 0,i p p 1 2,i p 1 h x ex i x e x l ogb x 個人理解 x可以是連續或者離散,反正就是積分h p,q ep log q h p dk...

資訊理論基礎

所謂的資訊,就是以前不知道現在知道的事實,如果某件事以前就知道,當別人再告訴你時,你會忽略,這件事對你的認知沒有任何影響,這就不叫資訊,反之,如果某件事以前你不知道,有人告訴你了,你現在知道了,那麼對你而言,這件事就是資訊。讓我們更進一步,看一件事帶來的資訊量的大小如何來度量。顧名思義,資訊量就是度...