最大熵原理

2021-07-10 01:53:14 字數 2275 閱讀 6410

在投資時常常講不要把所有的雞蛋放在乙個籃子裡,這樣可以降低風險。在資訊處理中,這個原理同樣適用。在數學上,這個原理稱為最大熵原理(the maximum entropy principle)。

最大熵原理 是在 1957  年由 e.t.jaynes  提出的,其主要思想是,在只掌握關於未知分布的部分知識時,應該選取符合這些知識但熵值最大的概率分布。因為在這種情況下,符合已知知識的概率分布可能不止乙個。我們知道,熵定義的實際上是乙個隨機變數的不確定性,熵最大的時候,說明隨機變數最不確定,換句話說,也就是隨機變數最隨機,對其行為做準確**最困難。

從這個意義上講,那麼最大熵原理的實質就是,在已知部分知識的前提下,關於未知分布最合理的推斷就是符合已知知識最不確定或最隨機的推斷,這是我們可以作出的唯一不偏不倚的選擇,任何其它的選擇都意味著我們增加了其它的約束和假設,這些約束和假設根據我們掌握的資訊無法作出。

可檢視《**最大熵原理和統計物理學》

——曾致遠(richard chih-yuan tseng)

現為紐約州立大學albany分校物理系博士候選人,

研究領域主要為古典資訊理論,量子資訊論及理論統計熱物理學,其中目前特別著重於從流體結構,相變,臨界現象及非平衡熱力學等物理現象理論研究古典資訊理論在統計物理學中之意義及應用。

前段時間,google 中國研究院的劉駿總監談到在網路搜尋排名中,用到的資訊有上百種。更普遍地講,在自然語言處理中,我們常常知道各種各樣的但是又不完全確定的資訊,我們需要用乙個統一的模型將這些資訊綜合起來。如何綜合得好,是一門很大的學問。

讓我們看乙個拼音轉漢字的簡單的例子。假如輸入的拼音是"wang-xiao-bo",利用語言模型,根據有限的上下文(比如前兩個詞),我們能給出兩個最常見的名字「王小波」和「王曉波」。至於要唯一確定是哪個名字就難了,即使利用較長的上下文也做不到。當然,我們知道如果通篇文章是介紹文學的,作家王小波的可能性就較大;而在討論****時,台灣學者王曉波的可能性會較大。在上面的例子中,我們只需要綜合兩類不同的資訊,即主題資訊和上下文資訊。雖然有不少湊合的辦法,比如:分成成千上萬種的不同的主題單獨處理,或者對每種資訊的作用加權平均等等,但都不能準確而圓滿地解決問題,這樣好比以前我們談到的行星運動模型中的小圓套大圓打補丁的方法。在很多應用中,我們需要綜合幾十甚至上百種不同的資訊,這種小圓套大圓的方法顯然行不通。

最漂亮的辦法是最大熵(maximum entropy)模型,它相當於行星運動的橢圓模型。「最大熵」這個名詞聽起來很深奧,但是它的原理很簡單,我們每天都在用。說白了,就是要保留全部的不確定性,將風險降到最小。讓我們來看乙個實際例子。

有一次,我去 at&t 實驗室作關於最大熵模型的報告,我帶去了乙個色子。我問聽眾「每個面朝上的概率分別是多少」,所有人都說是等概率,即各點的概率均為1/6。這種猜測當然是對的。我問聽眾們為什麼,得到的回答是一致的:對這個「一無所知」的色子,假定它每乙個朝上概率均等是最安全的做法。(你不應該主觀假設它象韋小寶的色子一樣灌了鉛。)從投資的角度看,就是風險最小的做法。從資訊理論的角度講,就是保留了最大的不確定性,也就是說讓熵達到最大。接著,我又告訴聽眾,我的這個色子被我特殊處理過,已知四點朝上的概率是三分之一,在這種情況下,每個面朝上的概率是多少?這次,大部分人認為除去四點的概率是 1/3,其餘的均是 2/15,也就是說已知的條件(四點概率為 1/3)必須滿足,而對其餘各點的概率因為仍然無從知道,因此只好認為它們均等。注意,在猜測這兩種不同情況下的概率分布時,大家都沒有新增任何主觀的假設,諸如四點的反面一定是三點等等。(事實上,有的色子四點反面不是三點而是一點。)這種基於直覺的猜測之所以準確,是因為它恰好符合了最大熵原理。

最大熵原理指出,當我們需要對乙個隨機事件的概率分布進行**時,我們的**應當滿足全部已知的條件,而對未知的情況不要做任何主觀假設。(不做主觀假設這點很重要。)在這種情況下,概率分布最均勻,**的風險最小。因為這時概率分布的資訊熵最大,所以人們稱這種模型叫「最大熵模型」。我們常說,不要把所有的雞蛋放在乙個籃子裡,其實就是最大熵原理的乙個樸素的說法,因為當我們遇到不確定性時,就要保留各種可能性。

回到我們剛才談到的拼音轉漢字的例子,我們已知兩種資訊,第一,根據語言模型,wang-xiao-bo 可以被轉換成王曉波和王小波;第二,根據主題,王小波是作家,《**時代》的作者等等,而王曉波是台灣研究****的學者。因此,我們就可以建立乙個最大熵模型,同時滿足這兩種資訊。現在的問題是,這樣乙個模型是否存在。匈牙利著名數學家、資訊理論最高獎夏農獎得主希薩(csiszar)證明,對任何一組不自相矛盾的資訊,這個最大熵模型不僅存在,而且是唯一的。而且它們都有同乙個非常簡單的形式 -- 指數函式。下面公式是根據上下文(前兩個詞)和主題**下乙個詞的最大熵模型,其中 w3 是要**的詞(王曉波或者王小波)w1 和 w2 是它的前兩個字(比如說它們分別是「出版」,和「」),也就是其上下文的乙個大致估計,subject 表示主題。

最大熵學習筆記(二)最大熵原理

生活中我們經常聽到人們說 不要把雞蛋放到乙個籃子裡 這樣可以降低風險。深究一下,這是為什麼呢?其實,這裡邊包含了所謂的最大熵原理 the maximum entropy principle 本文為一則讀書筆記,將對最大熵原理以及由此匯出的最大熵模型進行介紹,重點給出其中所涉及數學公式的理解和詳細推導...

最大熵原理 最低風險模型

奧卡姆剃刀法則的核心是簡單原則,當我們找到基函式時,而且找到了對乙個事物最根本規律的認識時,我們可以得到對它最簡單 最有效的描述。但是在我們尋找到基函式之前,我們需要有很多過渡性模型,用來解決當下問題。最大熵原理的實質就是,當我們需要對乙個隨機事件的概率分布進行 時,在已知部分知識的前提下,對未知的...

最大熵學習筆記(三)最大熵模型

生活中我們經常聽到人們說 不要把雞蛋放到乙個籃子裡 這樣可以降低風險。深究一下,這是為什麼呢?其實,這裡邊包含了所謂的最大熵原理 the maximum entropy principle 本文為一則讀書筆記,將對最大熵原理以及由此匯出的最大熵模型進行介紹,重點給出其中所涉及數學公式的理解和詳細推導...