最大熵模型與最大似然概率

2021-07-05 10:34:47 字數 1788 閱讀 5904

對於自然語言處理中的各種模型來說,最大熵模型是一種在形式上最簡單,但是在實現上卻最複雜的模型。最大熵模型就是在滿足已知條件的情況下,求得使熵最大的概率模型。說起來很簡單,實際上要求得這個熵最大的概率模型,計算量十分巨大,因此需要仔細設計細節。

最大熵模型最大的難點**於特徵的選取和引數估計。其中特徵選取的需要很多次迭代,在迭代的過程中逐步對引數進行估計。在最大熵模型引數的計算中,因為將特徵視為已知,因此需要對已知情況進行計算,而這種計算就是最大似然概率估計演算法的特長。    

最原始的最大熵模型的訓練方法是一種稱為通用迭代演算法 gis(generalized iterative scaling) 的迭代 演算法。gis 的原理並不複雜,大致可以概括為以下幾個步驟:

假定第零次迭代的初始模型為等概率的均勻分布。

用第 n 次迭代的模型來估算每種資訊特徵在訓練資料中的分布,如果超過了實際的,就把相應的模型引數變小;否則,將它們便大。

重複步驟 2 直到收斂。

上次的文章中講到最大熵模型最難的部分是訓練,因為訓練中的資料量巨大,導致計算量巨大。darroch & raticliff在2023年提出了

gis算 法來求解。gis演算法是一種通用的求解線性等式約束對數線性規劃問題的演算法,其核心思想是利用拉格朗日運算元,將線性等式約束對數線性規劃問題轉化為對數線 性規劃問題,然後使用求偏導數法將對數線性規劃問題轉化為迭代求解問題,最後使用梯度遞減法求得最優解。gis演算法的效率不高,收斂速度慢,而且不穩定, 容易越界。

鑑於這些缺陷,最大熵模型並未被廣泛使用,但adwait ratnaparkhi在2023年的a maximum entropy model for parsing **中成功的使用了最大熵模型進行句法分析。2023年della pietra & lafferty提出了iis算 法,對gis進行了改進。iis演算法的前兩步與gis相同,再將線性等式約束對數線性規劃問題轉化為迭代求解問題後,使用最大似然概率法將問題再次轉化為 求最大下界問題,然後使用求偏導數法求得迭代步長,迴圈迭代得到最優解。adam berger對iis演算法進行了十分清晰的解釋。

上次的文章中講到吳軍在iis的基礎上進一步提出了層次訓練演算法,其核心思想是利用特徵的層次化關係,避免了重複計算,從而把最大熵模型的訓練效率提高了幾百上千倍。

最大熵模型的訓練的計算量主要來自三個部分:模型引數、特徵期望值和歸一化因子。模型引數的個數等於特徵的個數,可以用iis中的辦法計算 出來,計算量相比特徵期望值和歸一化因子算是少的,因此主要的計算量集中在後兩者。層次訓練演算法中計算模型引數的方法與gis和iis是一樣的,主要改進 特徵期望值和歸一化因子的計算方法。

最大熵模型中的特徵有很多,有些特徵具有層次化關係,例如在3-gram模型中,符合乙個三元特徵的元組通常會符合乙個二元特徵,因此符合 二元特徵的元組集合包含三元特徵的元組集合,兩者具有層次關係,以此類推,二元特徵又跟一元特徵具有層次關係。因此,在計算歸一化因子的時候,能夠將式子 劃分成對一元特徵、二元特徵和三元特徵的累加值的和,這樣具有同樣前向條件的二元元組和三元元組只需計算一次,以後就都能使用二元特徵和三元特徵的累加 值,只需計算一元特徵的累加值,計算量大為下降。同樣,在計算特徵期望值的時候,由於符合一元特徵的元組集合包含二元和三元特徵的,可以將求一元特徵期望 值的式子劃分成一元、二元、三元三個部分,其中二元和三元的部分,只需計算一次,以後具有同樣的前向條件的三元元組就不需要計算了,以此類推,二元特徵期 望值和三元特徵期望值,也可以簡化。

但是,有些模型的特徵並不具有層次關係,吳軍提出乙個通用的層次化特徵的辦法,這樣對於一些諸如主題特徵、句法特徵、符號特徵等無層次的特徵的計算也能夠進行簡化。在此基礎上,吳軍還進一步簡化了歸一化因子的計算,將最大熵模型轉化arpa格式,同時對常用的歸一化因子和特徵期望值進行快取,計算時間進一步減少。

最大熵模型與最大似然估計

最近在回顧李航的統計學習方法 1 看到這一章,準備好好梳理一下,更加深入地理解原理以及背後的思想.作者在這一章介紹了最大熵模型並且推導了對偶函式的極大化等價於最大熵模型的極大似然估計,面對一大堆的概念,我重新回顧了一遍其中相關的內容.最大熵原理是在 1957 年由 e.t.jaynes 提出的,其主...

最大似然估計 交叉熵與最大似然估計的聯絡

交叉熵刻畫的是實際輸出 概率 與期望輸出 概率 的距離,也就是交叉熵的值越小,兩個概率分布就越接近,即擬合的更好。kl散度如下圖所示 當p分布是已知,則熵是常量 於是交叉熵和kl散度則是等價的。最小化kl散度和模型採用最大似然估計進行引數估計又是一致的。可以從公式推導上證明 最小化交叉熵即最小化kl...

最大似然估計與最大後驗概率區別

最大後驗概率比最大似然估計多了先驗概率 對於這個函式 p x 輸入有兩個 x表示某乙個具體的資料 表示模型的引數。如果 是已知確定的,x是變數,這個函式叫做概率函式 probability function 它描述對於不同的樣本點x,其出現概率是多少。如果x是已知確定的,是變數,這個函式叫做似然函式...