條件熵和聯合熵
h (x
,y∣z
)=h(
x∣z)
+h(y
∣x,z
)h(x,y|z) = h(x|z) + h(y|x,z)
h(x,y∣
z)=h
(x∣z
)+h(
y∣x,
z)互資訊基本性質
對稱性x,y顛倒位置相等
非負性肯定大於等於零
級值性互資訊不可能比自身還大
可加性
例題題目:25個銅幣有一枚質量不同,通過天平最少能稱量出的次數是多少
achievability
利用小學的知識可以知道,可以實現3次就得到結果
converse(英文,逆的)
證明3次是不是最少的次數
h (x
)=log225
h(x)=\log_25
h(x)
=log2
25 25個可能性均勻分布
i (x
n,x)
≤h(x
n)≤n
∗h(x
)i(x,x) \leq h(x^n) \leq n*h(x)
i(xn,x
)≤h(
xn)≤
n∗h(
x)≤ n∗
log2
3\leq n*log_3
≤n∗log
23
稱量時候左偏 右偏 不偏三種
進行n次實驗得到的互資訊 超過h(x
)h(x)
h(x)
的不確定性的資訊量
所以n ∗l
og23
≥log
225n*log_3\geq log_25
n∗log2
3≥
log2
25
解得n
≥2.9299
n\geq2.9299
n≥2.92
99鑑別資訊(資訊散度,度量距離)
鑑別資訊不滿足對稱性和三角不等式關係
建立熵和鑑別資訊之間的關係,等概分布資訊量減去 等概分布到實際分布之間的距離剩下的就是這個夏農熵
建立鑑別資訊和互資訊之間的關係
凸集,連一條線中間的數都在集合裡就是凸集,整數就不是凸集,1和2之間還有其他的數
jensen不等式,為下邊證明做準備
通過上邊的不等式可以得到鑑別資訊是下凸的函式
熵函式是上凸的,因為h = log|x| - d,d是下凸的,所以h是上凸的
i(x,y)也是上凸的
fano不等式 p
ep_e
pe是平均錯碼概率
因為乙個有理數如果一直寫的話(像pi)一定是無窮 的,所以包含的資訊量是無窮大的
對於微分熵來說
所以有可能會是負數的
高斯分布時候的微分熵
若給定均值和方差時候,當服從高斯分布時候微分熵最大
夏農第一定理
資訊理論 學習筆記
克勞德 夏農 claude shannon 美國數學家 電子工程師和密碼學家,被譽為資訊理論的創始人。資訊理論是在資訊可以量度的基礎上,研究有效和可靠的傳遞資訊的科學,它涉及資訊量度 資訊特性 資訊傳輸速率 通道容量 干擾對資訊傳輸的影響等方面的知識。資訊量是對資訊的度量。多少資訊用資訊量來衡量,我...
機器學習 3 資訊理論
1.資訊熵 給定概率密度函式 p x 定義該函式的資訊熵 h p h mathbf int lnp mathbf d mathbf 資訊熵描述了分布的混亂程度。均勻分布是使得資訊熵最大的概率分布。單點的衝擊響應函式對應的資訊熵最小 2.相對熵 給定兩個概率密度函式 p x 和 q x 描述二者之間的...
資訊理論筆記
i p log b p 當b 2,熵的單位是bit b e,熵的單位是nat b 10,熵的單位是hart p 1,i p 0 p 0,i p p 1 2,i p 1 h x ex i x e x l ogb x 個人理解 x可以是連續或者離散,反正就是積分h p,q ep log q h p dk...