資訊量為什麼要表示成對數的形式

2021-08-14 17:10:16 字數 3279 閱讀 3638

近期在路上進行了不少的思考,任何方面,任何領域…我會把這些記錄在手機的備忘錄裡,然後在週末總結出來,早就成了習慣。

近日對資訊理論排隊論以及貝葉斯定理關注比較多,後二者可以完全改造tcp的擁塞控制機制,所以基礎還是要夯實的。本文描述乙個基礎中的基礎,後續我會追加關於對這些基礎背後的一些哲學層面上的思考,但由於今天只是周四,就只能到週六了。

有人問一件事發生後所攜帶的資訊量為什麼要表示成事件發生概率的對數的形式,我在文章《不知為不知–資訊理論和最大熵原則》裡面的夏農的資訊理論

一節中已經回答過了,這裡再次列一下:

這裡應該說的很明白了。之所以還是有人問,那是因為他們想知道為什麼「第三點要求確定了對數關係」,依據是什麼?本文我給出乙個數學上的說明。

首先把上述三點翻譯成數學語言:

設f

(x)表

示事件a

發生時攜

帶的資訊

量,其中

x為事件

a發生的

概率,則

有:

limr→0

f(r)

=+∞

f(

1)=0

f(

x1x2

)=f(

x1)+

f(x2

) x1

,x2∈

(0,1

]

然後這就成了一道我們都很熟悉的數學題:

已知

f(x)

定義域x

∈(0,

1],可

導,且滿

足f(x

y)=f

(x)+

f(y)

,求f(

x)。

是的,這是乙個函式方程,把它解出來就是答案!說到這裡,很多人就覺得容易了,我這裡僅給出乙個推導,實際的解法有太多。

令x

=y=1

,則有:

f(

1)=f

(1)+

f(1)

,所以f

(1)=

0,顯然

這是乙個

可推導出

的結論。

由牛

頓−萊布

尼茲公式

,有:

f(

1)−f

(x)

=∫

1xf′

(t)d

t

=∫

1xf(

t+dt

)−f(

t)dt

dt=∫

1xf(

tt+d

tt)−

f(t)

dtdt

=∫

1xf(

t)+f

(1+d

tt)−

f(t)

dtdt

=∫

1xf(

1+dt

t)dt

dt=∫

1xf(

1+dt

t)−f

(1)d

tdt

=∫

1x1t

f(1+

dtt)

−f(1

)dtt

dt由於

limdt→

0dtt

=0,所

以:f(

1)−f

(x)=

∫1x1

tf′(

1)dt

=>

0−

f(x)

=f′(

1)∫1

x1td

t,由於

01且f(

1)=0

,所以:

f(

x)=−

f′(1

)lnx

(x∈(0,

1])

到此基本已經完成了推導,如果覺得底數為

e 不代表一般性,那麼就來個換底公式歸一化一下:

f(

x)=−

f′(1

)log

aelogax

設γ

=log

aef′

(1),

上式兩邊

同乘γ,

有:f(

x)=γ

f(x)

=−lo

gax

我們

完全可以

管f(x

)叫做信

息量,其

中γ是縮

放係數。

最後的這個縮放係數可以理解成資訊量的單位,不管最終的lo

ga中的底數

a 是多少,只要

a是確定的,那麼以

a 為底數度量的資訊量的比例都是一致的,也就是說它們是相似的。鑑於不同事件發生的資訊量是乙個相對值,所以說,這裡可以忽略這個縮放係數

γ,最終資訊量記為:

f(

x)=−

loga

x

畢!

我們發現,這其實是乙個多麼簡單的過程,基本上就是在學習了函式方程後的一道每個人必須完成的課後作業題。

在一段不長不短的時間以後,接觸到了資訊理論,卻對資訊量為什麼表示成概率的對數迷惑不解,追溯起來當初在考試的時候,關於已知限制條件求解f(

x)通解的試題那可以說是信手拈來啊…

解題歸解題,又扯了一些沒用的…

道可道非常道,終極的東西往往是無法表達的,所以就只能舉一些例子來理解,這些例子其實就是柏拉圖的影子。今天有點晚了,週末時,我會寫一篇文章說說我對對數貝葉斯定理的看法。

告訴你為什麼資料要取對數

2016 06 07 16 04 746人閱讀收藏 舉報 機器學習 13 平時在一些資料處理中,經常會把原始資料取對數後進一步處理。之所以這樣做是基於對數函式在其定義域內是單調增函式,取對數後不會改變資料的相對關係,取對數作用主要有 1.縮小資料的絕對數值,方便計算。例如,每個資料項的值都很大,許多...

告訴你為什麼資料要取對數

平時在一些資料處理中,經常會把原始資料取對數後進一步處理。之所以這樣做是基於對數函式在其定義域內是單調增函式,取對數後不會改變資料的相對關係,取對數作用主要有 1.縮小資料的絕對數值,方便計算。例如,每個資料項的值都很大,許多這樣的值進行計算可能對超過常用資料型別的取值範圍,這時取對數,就把數值縮小...

資訊熵為什麼要定義成 p log p ?

資訊熵為什麼要定義成 p log p 在解釋資訊熵之前,需要先來說說什麼是資訊量。資訊量是對資訊的度量,單位一般用bit。資訊理論之父克勞德 艾爾伍德 夏農 claude elwood shannon 對資訊量的定義如下 在解釋這個公式之前,先看看下面的例子。比如乙個黑箱裡有2個蘋果,8個橙子我們把...