機器學習 條件隨機場模型

2021-09-08 11:32:38 字數 2600 閱讀 5468

有了強大的log-linear模型,連水槽都能拿來做分類特徵了,當然要想辦法用一下試試了。log-linear模型的輸入是一系列幾乎接近自然語言的特徵方程,這種抽象的東西拿來做語義識別自然是再好不過了。語義識別有乙個重要的步驟,叫做 」給句子貼標籤「,簡而言之,就是給定乙個句子,通過識別其中一些特徵:比如存在人名,地名,日期,商品名稱,從而判斷這個句子的屬性(做交易,下任務,更改設定等。) 能夠準確的識別句子中的這些 tag 可以有助於理解乙個句子。但是要怎樣來確定某個單詞是不是地名或者人名呢?光靠首字母是否大小寫或者和對應的庫去匹配顯然是不夠好的。

為了更好的完成任務,引入上下文成了乙個有意義的手段。對自然語言或者大部分訊號而言,在某訊號之前的上個訊號有著重要的意義(比如我使用了重要的,那麼下個詞多半是名詞)。所以構建了以相鄰訊號作為特徵方程的模型,成為條件隨機場。

普通的log-linear模型長這樣:

如果把上下文考慮進特徵方程,那麼它的特徵方程大概長這樣:

(x-) 代表整個句子,(y-)代表標籤序列。乙個n個詞(x的長度)的句子顯然有m個標籤(tag的容量)。因為句子的長度一般都不同,但「標籤」的集合卻可以是相同的(詞性總歸就那麼幾個),所以,我們需要恆定數目的特徵方程(一般情況下特徵方程的數目是m*n).

故考慮設計了上述形式的子特徵方程,以 y_i-1 (這表示某標籤序列的第i-1個標籤)以及第i個標籤形成的子特徵方程遍歷整個句子。最後將子特徵方程遍歷的結果求和,作為總特徵方程的返回值。子特徵方程可以是以下形式(如果符合則返回1,否則返回0)

f1.前面為名詞,則後面乙個詞開頭為m

f2.前面為副詞,則後面乙個詞是形容詞

f3.前面為形容詞,則後面乙個詞以y結尾

...顯然對於一般情況下的句子而言,上述子特徵方程求和後會給 f_j 乙個比較大的值(因為符合語法規則)。注意每個 f_ 裡都只能有兩個詞性。當我們有很多這樣的規則時,正確的規則(名次後面接動詞)會被訓練成較高的權重,而錯誤的規則則會被賦予較低的權重,最後得到的詞性序列會有較高的正確性。

拿到crf模型後,我們要想辦法能夠通過訓練得到 一組合適的引數w_j,以實現分類器的構造。但是在拿到引數之前,還是需要做些準備工作,比如:獲得各階導數的表示式。ok,由於我們引入了 子特徵方程 f_ 並且 f_與f_ 存在求和關係,所以這裡的演算法會比較複雜。

整體的表示式長這樣:

如果把 f_j 帶入,表示式長這樣:

最終目標也就變成了:

這裡做了乙個乘法結合律,把wj和fj放在了一起,總結成了乙個g函式。是不是   「乙個」   g函式呢?這倒是不一定。。。。。。。

對於任意乙個 i ,gi 都是不同的方程。和 gi 有關的引數是兩個,這兩個引數都是tag。那麼假設 tag的集合裡有m個元素,則gi的總個數是 m^2(所有的tag組合都要遍歷)。也就是說,對長度為n的乙個句子,都要算 n*m^2 次(此處可能有誤)。。。。

計算次數這麼多顯然有點問題。故考慮設計一種遞迴的演算法,來減小計算的規模。這裡不詳細講述。

要對 log-linear 模型進行標定,當然是要想辦法使模型引數最符合訓練集合了。最符合訓練集合的意思就是要想辦法使得在某組引數下,訓練集發生的概率達到最大。不妨對概率取對數,使得式子線性化。

ok,到此為止,已經求出了各個引數導數的表達形式,f_j(x,y)是很容易求的,對任意訓練集這都是已知的。而後面的e求起來卻比較麻煩,它需要把所有可行的標籤帶入fj中,並且乘以p(這裡p也好求,給定wj,p就是已知的)但是這樣子梯度的計算量就非常大。相當於每一次迭代都需要對 標籤集 進行遍歷,計算量很大,不過機智的計算機科學家設計了演算法通過**p的分布,來描述e。具體的演算法不再贅述,總之,條件隨機場模型是一種可考慮多因素,對物體進行多標籤分類的模型。其訓練過程需要有監督學習,對機械人視覺來說,有監督學習並不是一件簡單的事情。物體的外形也很難和物體的標籤聯絡起來(圓的是杯子還是茶葉罐?)所以條件隨機場對計算機視覺會更有效,基於紋理顏色形狀等資訊的二維影象更適合去**其意義。

機器學習之條件隨機場(CRF)

crf即條件隨機場 conditional random fields 是在給定一組輸入隨機變數條件下另外一組輸出隨機變數的條件概率分布模型,它是一種判別式的概率無向圖模型,既然是判別式,那就是對條件概率分布建模。crf較多用在自然語言處理和影象處理領域,在nlp中,它是用於標註和劃分序列資料的概率...

條件隨機場

模型是指數函式形式,最後求的是特徵在整個序列的權重,因此是全域性解。而最大熵只是求當前狀態的輸出解,是區域性解,因此有標記偏置的問題。條件隨機場源自圖模型的概念,序列標註使用的是一階煉表。整個圖的聯合概率就是每個團的概率乘積,每個團的概率又可以表示成狀態函式和條件轉移函式的乘積。優化目標是條件隨機場...

條件隨機場

概率圖模型是由圖表示的概率分布。概率無向圖模型又稱馬爾可夫隨機場 markov random field 表示乙個聯合概率分布,其標準定義為 設有聯合概率分布 p v 由無向圖 g v,e 表示,圖 g 中的節點表示隨機變數,邊表示隨機變數間的依賴關係。如果聯合概率分布 p v 滿足成對 區域性或全...