條件隨機場專題(2) CRF模型

2021-08-04 16:57:46 字數 1640 閱讀 5469

crf是一種典型的判別式模型,它是根據模板,得到相應的特徵函式,再通過這些特徵函式進行引數的優化計算,那麼在介紹crf模型前,就有必要先介紹判別式模型和生成式模型。

從流程上看:

生成模型:無窮樣本-->概率密度模型 = 產生模型-->**

判別模型:有限樣本-->判別函式 = **模型-->**

也就是說,如果我根據訓練集,統計出乙個概率密度模型,然後通過這個模型進行**,那麼就是乙個生成模型;如果我寫出乙個判別函式,通過訓練集,尋求出模型的各個引數的最優解,從而得到乙個模型,再通過這個模型的各個引數**,那麼就是乙個判別模型。

舉個栗子:

生成模型:樸素貝葉斯、馬爾科夫隨機場

判別模型:支援向量機、邏輯回歸、條件隨機場

在這裡介紹一種crf模型,即線性crf模型。

我們現在有一群這樣的訓練集:d=,,...,,需要**的結果:o=,然後我們有一堆特徵模板。我們需要求的是p(y|x),如果說詞性標註問題上,我們一句話中有8個位置,有5個標籤(名詞,動詞,介詞,形容詞,代詞),那麼我們需要求8的5次方個概率。

其中:

下標介紹:

函式f:在給定觀察序列x時,某個特定的序列y的概率函式,包括轉移函式和狀態函式

k:f函式總共的個數

t:序列中總共的位置個數

t:在序列中的位置

最大對數似然表示式:

下標介紹:

n:訓練集中訓練資料的個數

我們的目標就是最大化對數似然函式時,求解各個引數的最優解。

為了避免過擬合,我們增加了l2正則式:

求解時,通過梯度下降法就可以求解出來。

在引數求解出來之後,要進行解碼操作:選擇出多種情況中概率最大的情況

使用標籤類特徵,比如命名實體標註中的各個命名種類,會產生大規模的引數,因為有一些是不可能出現的,也就是說有的前面的係數為0。(比如說:北京和上海)這裡邊「和」是永遠不會是城市的,這種特徵叫做「unsupport feature」。雖然這種特徵可以略微提高效能,但是,它會帶來更多的引數,大大增加訓練時間。

提出的辦法就是:

先篩選出「unsupport feature」,對沒有「unsupport feature」進行crf訓練;在迭代有限次之後,把那些「unsupport feature」加入到模型中訓練。

為了減少特徵的數量,我們把標籤類特徵對某些模板有效,而不是對所有模板有效。

邊界的標籤往往不同於普通位置的標籤,比如說:句子中段英語單詞大寫,一般就是名詞,而句子開始則不一定。

訓練以一些基礎的特徵開始,然後期間增加一些這些特徵之間的聯絡。

對於實值特性,它可以幫助應用標準的技巧,比如使特性歸一化,表示均值0和標準偏差1或將其轉換為本特性分類的值,表示為二進位制特徵。

在使用冗餘特性時,使用正則化是很重要的。

條件隨機場CRF

條件隨機場 crf 是給定一組輸入隨機變數x的條件下另一組輸出隨機變數y的條件概率分布模型,其特點是假設輸出隨機變數構成馬爾科夫隨機場。實際上是定義在時序資料上的對數線性模型。條件隨機場屬於判別模型。概率圖模型是由無向圖表示的聯合概率分布,概率無向圖模型的最大特點是易於因子分解。團 無向圖g中任何兩...

CRF條件隨機場

crf即條件隨機場 conditional random fields 是在給定一組輸入隨機變數條件下另外一組輸出隨機變數的條件概率分布模型,它是一種判別式 理解一些和生成模型的區別 的概率無向圖模型,既然是判別式,那就是對條件概率分布建模。一 概率無向圖模型 概率無向圖模型是由無向圖表示的聯合概率...

條件隨機場CRF原理

對於crf一直很嚮往,專門花了一些時間去查詢資料,一步一步弄明白了crf的基本原理,下面把crf部分核心寫了出來,時間倉促,很多細節沒有寫出來,後續會慢慢完善。而且crf需要用到很多的基礎知識,比如無向圖 有向圖,判別式 生成式,最大團等等概念,所以想要徹底的理解crf,必須弄明白這些基礎知識。當然...