統計自然語言處理 資訊理論基礎

2021-07-14 22:14:07 字數 3377 閱讀 4906

資訊是個相當寬泛的概念,很難用乙個簡單的定義將其完全準確的把握。然而,對於任何乙個概率分布,可以定義乙個稱為熵(entropy)的量,它具有許多特性符合度量資訊的直觀要求。這個概念可以推廣到互資訊(mutual information),互資訊是一種測度,用來度量乙個隨機變數包含另乙個隨機變數的資訊量。熵恰好變成乙個隨機變數的自資訊。相對熵(relative entropy)是個更廣泛的量,它是刻畫兩個概率分布之間距離的一種度量,而互資訊又是它的特殊情形。

——隨機變數不確定度的度量

設p(x)為隨機離散變數x的概率密度函式,x屬於某個符號或者字元的離散集合 x:

p(x) = p(x = x), x ∈ x

熵表示單個隨機變數的不確定性的均值,隨機變數的熵越大,它的不確定性越大,也就是說,能正確估計其值的概率越小。熵的計算公式 :

將負號移入對數公式內部:

上式實際上表達的是乙個加權求值的概念,權重就是隨機變數x的每個取值的概率。

用e表示數學期望。如果x~p(x),則隨機變數g(x)的期望值可表示為:

注:x的熵又解釋為隨機變數

熵的屬性

例子:世界盃足球賽冠軍、中文書的資訊量和冗餘度。

資訊的作用在於消除不確定性,自然語言處理的大量問題就是尋找相關資訊。

不確定性u,資訊i,新的不確定性: u』= u - i

如果沒有資訊,任何公式或者數字的遊戲都無法排除不確定性。合理利用資訊,而非玩弄什麼公式和機器學習演算法,是做好搜尋的關鍵。

例子:網頁搜尋

如果(x,y)是一對離散隨機變數,其聯合概率分布密度函式為p(x,y),(x,y)的聯合熵h(x,y)定義為:

已知隨機變數x的情況下隨機變數y的條件熵:

上式實際上表示的是在已知x的情況下,傳輸y額外所需的平均資訊量。

例子:自然語言的統計模型,一元模型就是通過某個詞本身的概率分布,來消除不確定因素;而二元及更高階的語言模型還是用了上下文的資訊,那就能準確**乙個句子中當前的詞彙了。

熵的鏈式法則:

根據熵的鏈式法則,我們有如下的計算公式:

h(x,y) = h(x) + h(y|x) = h(y) + h(x|y)

所以有:

h(x) - h(x|y) = h(y) - h(y|x)

這個差值稱為隨機變數x和y之間的互資訊(mutual information),用i(x;y)表示。

互資訊是乙個取值在0到min(h(x), h(y))之間的函式,當x和y完全相關時,取值為1;當二者完全無關時,取值為0。

互資訊被廣泛用於度量一些語言現象的相關性。例如可以用於詞的聚類和語義消岐。

例子:機器翻譯中詞義的二義性問題

相對熵是兩個隨機分布之間距離的度量。在統計學中,它對應的是似然比的對數期望。相對熵d(p||q)度量當真實分布為p而假定分布為q時的無效性。

例如,已知隨機變數的真實分布為p,可以構造平均描述長度為h(p)的碼。但是如果使用針對分布q的編碼,那麼在平均意義上就需要h(p) + d(p||q)位元來描述這個隨機變數。

給定兩個概率密度函式p(x)和q(x),它們的相對熵(relative entropy)又稱為kullback-leibler(kl)距離:

結論:

google自動問答系統,採用類似方法衡量兩個答案的相似性。

互資訊與相對熵

設 x~p(x),q(x)為我們估計的近似p(x)的乙個概率分布,則p(x)和q(x)的交叉熵表示為:

因為h(x)的值一般是固定不變的,因此交叉熵的最小化等同於相對熵的最小化,即估計出概率分布和真實資料分布之間的差值。

模型的交叉熵越低,一般就意味著它在應用中的效能越好。

在設計語言模型時,我們通常用混亂度(perplexity)衡量乙個語言模型的好壞。

語言模型是為了用上下文**當前的文字,模型越好,**的越準,那麼當前文字的不確定性 就越小。

資訊熵正是對不確定性的衡量,因此可以想象資訊熵能夠直接用來衡量語言模型的好壞。

當然,因為有了上下文的條件,所以對於高階的語言模型,應該用條件熵

如果再考慮從訓練語料和真實應用的文字中得到的概率函式有偏差,就需要再引入相對熵的概念。

賈里尼克從條件熵和相對熵出發,定義了乙個稱為語言模型複雜度(perplexity)的概念,直接衡量語言模型的好壞。複雜度有很清晰的物理含義,它是在給定上下文的條件下,句子中的每個位置平均可以選擇的單詞數量。乙個模型的複雜度越小,每個位置的詞就越確定,模型越好。

自然語言處理學習筆記

參考 《elements of information theory》、《foundations of statistical natural language processing》、 《統計自然語言處理》、《數學之美》

推薦一篇資訊理論的博文,寫的非常好:visual information theor

統計自然語言處理 自然語言處理是什麼?

自然語言是指中文 英語 西班牙語 法語 德語等等語言,作為人們日常使用的其他語言,它們對人類的交流有著重要作用。自然語言是隨著人類社會的發展而自然產生的語言,而不是由人類所特意創造的語言。自然語言是人們日常學習生活的重要工具和媒介,如果人類失去交流的能力,文明就失去了意義。總的來說,自然語言就是指人...

統計自然語言處理(詞法)

語法可分為詞法和句法 詞法 句法 現代漢語句法的主要內容包括,句子的基本結構 句子的類別 句子的表達形式三個方面。句子的基本結構也叫基本成分,包括主語 謂語 賓語 定語 狀語 補語六種成分。其中的主語 謂語 賓語是主要成分,定語 狀語 補語是附加修飾成分。而主語和謂語是句子的必要成分,缺一則不能成為...

資訊理論基礎

所謂的資訊,就是以前不知道現在知道的事實,如果某件事以前就知道,當別人再告訴你時,你會忽略,這件事對你的認知沒有任何影響,這就不叫資訊,反之,如果某件事以前你不知道,有人告訴你了,你現在知道了,那麼對你而言,這件事就是資訊。讓我們更進一步,看一件事帶來的資訊量的大小如何來度量。顧名思義,資訊量就是度...