第08課 從自然語言處理角度看 HMM 和 CRF

2021-10-09 16:31:58 字數 683 閱讀 3932

近幾年在自然語言處理領域中,hmm(隱馬爾可夫模型)和 crf(條件隨機場)演算法常常被用於分詞、句法分析、命名實體識別、詞性標註等。由於兩者之間有很大的共同點,所以在很多應用上往往是重疊的,但在命名實體、句法分析等領域 crf 似乎更勝一籌。通常來說如果做自然語言處理,這兩個模型應該都要了解,下面我們來看看本文的內容。

理解 hmm(隱馬爾可夫模型)和 crf(條件隨機場)模型之前,我們先來看兩個概念:生成式模型和判別式模型。

在機器學習中,生成式模型和判別式模型都用於有監督學習,有監督學習的任務就是從資料中學習乙個模型(也叫分類器),應用這一模型,對給定的輸入 x **相應的輸出 y。這個模型的一般形式為:決策函式 y=f(x) 或者條件概率分布 p(y|x)。

首先,簡單從貝葉斯定理說起,若記 p(a)、p(b) 分別表示事件 a 和事件 b 發生的概率,則 p(a|b) 表示事件 b 發生的情況下事件 a 發生的概率;p(ab)表示事件 a 和事件 b 同時發生的概率。

根據貝葉斯公式可以得出:

生成式模型:估計的是聯合概率分布,p(y, x)=p(y|x)*p(x),由聯合概率密度分布 p(x,y),然後求出條件概率分布 p(y|x) 作為**的模型,即生成模型公式為:p(y|x

數學之美 第2章 自然語言處理 從規則到統計

任何語言都是一種編碼方式,語言的規則則是編譯碼的演算法。1.計算機能否處理自然語言?如果能,它處理自然語言的方法和人類一樣嗎?yes and yes 上下文相關的 基於語料統計的方法 2.圖靈測試 讓人和機器進行交流,如果人無法判斷自己交流得物件是人還是機器,就說明這個機器是有智慧型的。3.基於規則...

Python自然語言分析(第四期) 第2課書面作業

coding utf 8 import nltk from nltk.book import len text2 len text2 len dis text2 len set text2 print 在text2中有 str len text2 個詞 print 在text2中有 str len ...

(一)文字和語言 數字和資訊(從進化史看自然語言)

前言 數字 文字和自然語言一樣,都是資訊的載體,它們之間原本有著天然的聯絡。語言和數學的產生都是為了同乙個目的 記錄和傳播資訊。然而,為什麼直到半個多世紀前夏農博士提出資訊理論後,人們才開始把數學和資訊系統自覺的聯絡起來?在此之前,數學和語言學幾乎是沒有交集的。讓我們從進化史來看自然語言原理 通訊的...