自然語言處理(六) 詞性消歧

2021-10-01 20:57:35 字數 1201 閱讀 6753

詞性標註就是將每個單詞的詞性標註出來,標註的實現可以利用語料庫,但是同乙個單詞在不同的句子可能會有不同的詞性,這時就需要詞性消歧。下面舉乙個例子。

以下三個句子,分別標註了詞性,np是名詞,vbn是過去分詞,vbd是過去式,by是介詞by

(1)  chapman/np killed/vbn john/np lennon/np john/np

(2)  lennon/np was/bedz shot/vbd by~by chapman/np

(3)  he/pps witnessed/vbd lennon/np killed/vbn by~by chapman/np

第乙個句子中顯然killed的詞性標註是錯誤的,第二個句子中shot的詞性標註是錯誤的。因此如何將詞性正確的標註就是本篇文章要解決的問題。

根據宗成慶老師的書,實現過程有以下步驟:

(1) 將每一條詞性標註規則轉換成相應的狀態轉換機。

上面兩個圖就是狀態轉換機,區別於有限自動機,狀態轉換機的輸入會發生變化,vbn/vbd的意思就是vbn前面是np,就將vbn改為vbd。vbd後面是by,就把vbd改為vbn。

(2) 將上一步得到的與每一條規則關聯的狀態轉換機進行擴充套件變換,使其成為可以對輸人句子進行全域性操作的轉換機。

接下來的步驟教材上也沒給具體的演算法,我也看得一頭霧水,先記錄到這。總之實現的路徑就是狀態轉換機,可以根據上下文來進行修改。形式語言的東西暫時告一段落吧,接下來開始進入正題,統計自然語言處理。

這篇文章可能對於同行來說是粗製濫造,但我的主要目的是方便我以後溫習並且寫一遍加強記憶,順便可能會為各位提供一點微薄的幫助,因此文章有什麼錯誤的地方還望不吝賜教。

參考的書目和**有:emmanuel roche,yves schabes. deterministic part-of-speech tagging with finite-state transducers (1995)

自然語言處理之詞性標註

詞性標註作為nlp領域的一項基本任務,其與分詞任務同等重要,是很多任務的基礎,比如句法分析,命名實體識別等。命名實體識別在一定程度上也屬於標註任務,不過,難度相比一般的詞性標註而言,上公升了不少。對於詞性標註而言,不論是中文還是英文,其難點在於對於不同的語境,詞性的多變化 另一方面,隨著社會的發展,...

自然語言處理 詞性標註(北大,賓州)

詞性標註在中文領域暫無統一的標註標準,最常見較為主流的是北大和賓州詞性標註集。詞性編碼 詞性名稱 註解ag 形語素形容詞語素。形容詞 為a,語素 為g前面置以a a形容詞 取英語形容詞adjective的第1個字母 ad副形詞 直接作狀語的形容詞。形容詞 a和副詞 d並在一起 an名形詞 具有名詞功...

自然語言處理

自然語言處理主要步驟包括 2.詞法分析 對於英文,有詞頭 詞根 詞尾的拆分,名詞 動詞 形容詞 副詞 介詞的定性,多種詞意的選擇。比如diamond,有菱形 棒球場 鑽石3個含義,要根據應用選擇正確的意思。3.語法分析 通過語法樹或其他演算法,分析主語 謂語 賓語 定語 狀語 補語等句子元素。4.語...