詞性是詞彙的基本語法屬性,通常稱為詞類。
詞性標註(part-of-speech tagging, pos tagging)也被稱為語法標註(grammatical tagging)或詞類消疑(word-category disambiguation),是語料庫語言學(corpus linguistics)中將語料庫內單詞的詞性按其含義和上下文內容進行標記的文字資料處理技術
詞性標註可以由人工或特定演算法完成,使用機器學習(machine learning)方法實現詞性標註是自然語言處理(natural language processing, nlp)的研究內容。
常見的詞性標註演算法包括隱馬爾可夫模型(hidden markov model, hmm)、條件隨機場(conditional random fields, crfs)等 。
詞性標註主要被應用於文字挖掘(text mining)和nlp領域,是各類基於文字的機器學習任務,例如語義分析(semantic analysis)和指代消解(coreference resolution)的預處理步驟。
自然語言處理是電腦科學領域與人工智慧領域中的乙個重要方向。它研究能實現人與計算機之間用自然語言進行有效通訊的各種理論和方法。自然語言處理是一門融語言學、電腦科學、數學於一體的科學。因此,這一領域的研究將涉及自然語言,即人們日常使用的語言,所以它與語言學的研究有著密切的聯絡,但又有重要的區別。自然語言處理並不是一般地研究自然語言,而在於研製能有效地實現自然語言通訊的計算機系統,特別是其中的軟體系統。因而它是電腦科學的一部分。
自然語言處理(nlp)是電腦科學,人工智慧,語言學關注計算機和人類(自然)語言之間的相互作用的領域。
詞性標註遇到的最重要的問題就是詞性兼類問題。
漢語是一種缺乏詞形態變化的語言,詞的類別不能像印歐語那樣,直接從詞的形態變化上來判別。
造成詞性兼類問題的原因主要有以下幾點:
1.漢語缺乏詞形態變化,無法通過詞形變化判別詞類;
2.漢語中,常用詞兼類現象嚴重,比如:「這個人什麼都好,就是好酗酒。」其中,第乙個「好」讀三聲,是形容詞,而第二個「好」讀四聲,是動詞。
3.沒有統一的漢語詞類劃分標準,有些語料劃分很粗糙。
注意:《現代漢語八百詞》收取的常用詞中,兼類詞所佔的比例高達22.5%,而且發現越是常用的詞,不同的用法越多。由於兼類使用程度高,兼類現象涉及漢語中大部分詞類,因而造成在漢語文字中詞類歧義排除的任務量巨大。
詞性標註是很多nlp任務的預處理步驟,如句法分析,經過詞性標註後的文字會帶來很大的便利性,但也不是不可或缺的步驟。
詞性標註這裡基本可以照搬分詞的工作,在漢語中,大多數詞語只有乙個詞性,或者出現頻次最高的詞性遠遠高於第二位的詞性。據說單純選取最高頻詞性,就能實現80%準確率的中文詞性標註程式。
主要可以分為基於規則和基於統計的方法,下面列舉幾種統計方法:
1、基於最大熵的詞性標註
2、基於統計最大概率輸出詞性
3、基於hmm的詞性標註
1、句法分析預處理
2、詞彙獲取預處理
3、資訊抽取預處理
詞性標註有小標註集和大標註集。
例如小標註集把代詞都歸為一類,大標註集可以把代詞進一步分成三類。
人稱代詞:你、我、他、它、你們、我們、他們
疑問代詞:**、什麼、怎麼
指示代詞:這裡、那裡、這些、那些
採用小標註集比較容易實現,但是太小的標註集可能會導致型別區分度不夠。、
舉個例子:在黑白兩色世界中,可以通過顏色的深淺來分辨出物體,但是通過七彩顏色可以分辨出更多的物體。
練習例子
示例一
示例二
詞法分析與詞性標註
詞法分析與詞性標註 詞法分析概念 詞性標註概念 詞性標註理論基礎 詞性標註演算法 詞性標註應用 形態分析的方法 1.切分方法 2.最大匹配法 1 正向 2 逆向 3 雙向 3.最少分詞法 最短路徑法 4.基於語言模型的分詞方法 5.基於hmm的分詞方法 6.將生成式方法和判別式方法結合起來 自動分詞...
python學習筆記之資料的分析(二)
疫情資料分析 1.匯入外部資料 pd.read csv 檔名 檢視資料屬性 columns 列名 index 行索引 shape m行n列 dtyps 各列的型別 2.查詢資料 方法1 用列名直接查詢 df 列名列表 方法2 用loc查詢 df.loc 行取值,列取值 注意 行取值可以用邏輯值來進行...
編譯原理學習筆記3 1 詞法分析器
詞法分析器的設計 狀態裝換圖的實現 編譯程式首先是在單詞級別上來分析和翻譯源程式的。詞法分析的任務是 從左至右逐個字元地對源程式進行掃瞄,產生乙個個單詞符號,把作為字串的源程式改造成為單詞符號串的中間程式。因此,詞法分析是編譯的基礎。執行詞法分析的程式稱為詞法分析器。詞法分析器的功能 輸入源程式,輸...