資訊有大小嗎,如何度量資訊的大小?如何度量資訊之間的關係?其實每門學科都有它的神奇之處:)在日常生活中,我們應該遇到過這樣類似的情況:有的人簡單說了一句話,我們感覺這句話資訊量好大,一時緩不過神來。有的人說了一堆話,感覺和沒說一樣,半天提取不出來重點資訊。
如果遇到過這種情況,我們應該有所感覺——資訊應該是可以度量的。
確實,資訊的確可以度量。
被喻為資訊理論之父——克勞德·夏農,在 1948 年它的著名**「通訊的數學原理」(a mathematic theory if communication)中提出了「資訊熵」的概念,從而解決了資訊的度量問題。
我們從乙個例子引入資訊熵,資訊是乙個很抽象的東西,我和小美在聊天,小美說:明天天氣真好,是晴天,氣溫有25度。這句話很短,對於我來說,我要從這句話中提取出有用的資訊,但問題來了,我不可能在聽到小美說的話後就立刻在自己的腦袋裡刻上這條資訊。明天天氣是否真的那麼好?會是晴天嗎?如果是晴天,可能達到25度嗎?也就是說這條資訊具有不確定性,不確定性和資訊的大小是密切相關的,如果一條資訊的不確定性很大,我們要獲取到它,必須查閱很多的資料。明天是晴天?我先去看看天氣預報。如果小美說今天天氣真好,是晴天。這句話的不確定性就非常小,因為我知道今天是什麼天氣。
從上面的例子我們知道:資訊的資訊量與其不確定性有著直接的關係。
不確定性就是事件的概率和事件的結果。明天是不是晴天,簡單分類事件的結果會有兩種,晴天或不是晴天,晴天的概率是 50%,不是晴天的概率是 50% 。
資訊熵就是用來衡量資訊量的大小。熵這個字出自與熱力學,表示系統混亂的程度,在資訊理論中我們用資訊熵來表示資訊的大小。簡單理解資訊的不確定性越大,資訊熵就越大,資訊的不確定性越小,資訊熵也就越小。
在說資訊熵之前還要引入乙個概念:自資訊量
自資訊量是用來描述某一條資訊(自己)的大小。
公式如下:
先舉個簡單的例子,比如英文中的 26 個字母,假設每個字母出現的概率是相等的。那麼其中乙個字母的自資訊量大小就是
這個公式以 2 為底數,單位為bit,含義是用多少為二進位制數能衡量該資訊的大小。
我們也可以用其他進製來作為底數,僅僅是單位不同。
通常我們衡量的都是乙個系統的資訊量,系統 s 內存在多個事件s = ,每個事件的概率分布p = ,熵是整個系統的平均訊息量
說了這麼多資訊熵很大的話是時候來看看如何度量資訊的大小:)
公式如下:
從公式我們能看出熵是接收的每條訊息中包含的資訊的平均量,也被稱為平均自資訊量。
這個公式怎麼理解呢,比如我們要衡量一篇英語文章的資訊熵,對於任意一篇文章來說,每個字母出現的頻率是不同的,所以
h = -(p1*logp1 + p2*logp2 + … + p26*logp26)
pi表示每個英文本母出現的概率,英語的平均資訊熵是 4.03 位元,而中文的資訊熵高達 9.65 位元。所以說中文博大精深^_^。
這也就是為什麼很厚的一本英文書翻譯成中文後變薄了很多。
從上面我們知道了資訊熵是用來衡量資訊的不確定程度。資訊熵越大,說明資訊的不確定程度越大,資訊熵越小,說明資訊的不確定程度越小。
然而,在實際當中,我們常常希望資訊熵越小越好,這樣我們就能少費點力氣來確定資訊。
舉個最簡單的栗子:機器翻譯,將英語文章翻譯為漢語時,最令人頭疼的就是一詞多義問題。比如bush一詞是美國**布希的名字,但它同時也具有灌木叢的意思。在機器翻譯中,機器如何判斷將bush一詞翻譯成布希**還是灌木叢?此刻資訊的不確定性較大,就說明資訊熵較大。
那麼如何減小資訊熵呢,最簡單的方法就是增加上下文。前面提到的只是一元模型,為降低資訊的不確定性也就是減小資訊熵的大小,我們引入二元模型或更高階的模型。
來看看二元模型——條件熵,條件熵表示在已知第二個隨機變數x下第乙個隨機變數y資訊熵的大小。條件上用h(y|x)表示。
然而只有當隨機變數x和隨機變數y有關係時才能減小不確定性。機器翻譯中我們加入食物關鍵字能減小bush翻譯的不確定性嗎?當然不能。
那麼如何衡量兩個資訊的相關程度,我們引入互資訊。
來看下維基百科的定義
在概率論和資訊理論中,兩個隨機變數的互資訊(mutual information,簡稱mi)或轉移資訊(transinformation)是變數間相互依賴性的量度。在機器翻譯bush這個例子中,我們引入上下文來消除不確定性,那麼上下文該如何引入呢,在了解互資訊後,應該知道,只用引入和bush翻譯成**布希互資訊大的一些詞即可。比如美國,國會,**等等。再引入一些和灌木叢互資訊大的詞如森林,樹木等等。在翻譯bush時,看看上下文哪類詞多就好。
最後用一張圖來表示資訊熵,條件熵,互資訊之間的關係。
完
數學之美系列 4 怎樣度量資訊
發表者 吳軍,google 研究員 前言 google 一直以 整合全球資訊,讓人人能獲取,使人人能受益 為使命。那麼究竟每一條資訊應該怎樣度量呢?資訊是個很抽象的概念。我們常常說資訊很多,或者資訊較少,但卻很難說清楚資訊到底有多少。比如一本五十萬字的中文書到底有多少資訊量。直到 1948 年,夏農...
《數學之美》第6章 資訊的度量和作用
一條資訊的資訊量與其不確定性有著直接的關係。資訊量就等於不確定性的多少。如何量化資訊量的度量?資訊熵 entropy 用符號h表示,單位是位元。變數的不確定性越大,熵也就越大。如果一本書重複的內容很多,它的資訊量就小,冗餘度就大。不同語言的冗餘度差別很大,而漢語在所有語言中冗餘度是相對小的。資訊和消...
《數學之美》 第六章 資訊的度量和作用
總結 資訊的作用在於消除不確定性 補充相對熵是用來衡量兩個取值為正數的函式的相似性,關於相對熵的3點結論 1.對於兩個完全相同的函式,它們的相對熵等於0 2.相對熵越大,兩個函式差異越大 反之相對熵越小,兩個函式差異越小 3.對於概率分布或者概率密度函式,如果取值均大於0,相對熵可以度量兩個隨機分布...