詞法分析與詞性標註
詞法分析概念
詞性標註概念
詞性標註理論基礎
詞性標註演算法
詞性標註應用
形態分析的方法
1.切分方法
2.最大匹配法
1)正向
2)逆向
3)雙向
3.最少分詞法(最短路徑法)
4.基於語言模型的分詞方法
5.基於hmm的分詞方法
6.將生成式方法和判別式方法結合起來
## 自動分詞面臨的問題
詞法分析(英語:lexical analysis)是電腦科學中將字串行轉換為單詞(token)序列的過程。進行詞法分析的程式或者函式叫作詞法分析器(lexical analyzer,簡稱lexer),也叫掃瞄器(scanner)。詞法分析器一般以函式的形式存在,供語法分析器呼叫。 完成詞法分析任務的程式稱為詞法分析程式或詞法分析器或掃瞄器。
完成詞法分析任務的程式稱為詞法分析程式或詞法分析器或掃瞄器。從左至右地對源程式進行掃瞄,按照語言的詞法規則識別各類單詞,並產生相應單詞的屬性字。
詞性標註(part-of-speech tagging, pos tagging)也被稱為語法標註(grammatical tagging)或詞類消疑(word-category disambiguation),是語料庫語言學(corpus linguistics)中將語料庫內單詞的詞性按其含義和上下文內容進行標記的文字資料處理技術
詞性標註可以由人工或特定演算法完成,使用機器學習(machine learning)方法實現詞性標註是自然語言處理(natural language processing, nlp)的研究內容。常見的詞性標註演算法包括隱馬爾可夫模型(hidden markov model, hmm)、條件隨機場(conditional random fields, crfs)等 。
詞性標註主要被應用於文字挖掘(text mining)和nlp領域,是各類基於文字的機器學習任務,例如語義分析(semantic analysis)和指代消解(coreference resolution)的預處理步驟。
自然語言處理是電腦科學領域與人工智慧領域中的乙個重要方向。它研究能實現人與計算機之間用自然語言進行有效通訊的各種理論和方法。自然語言處理是一門融語言學、電腦科學、數學於一體的科學。因此,這一領域的研究將涉及自然語言,即人們日常使用的語言,所以它與語言學的研究有著密切的聯絡,但又有重要的區別。自然語言處理並不是一般地研究自然語言,而在於研製能有效地實現自然語言通訊的計算機系統,特別是其中的軟體系統。因而它是電腦科學的一部分。
自然語言處理(nlp)是電腦科學,人工智慧,語言學關注計算機和人類(自然)語言之間的相互作用的領域。*
詞性標註在本質上是分類問題,將語料庫中的單詞按詞性分類。乙個詞的詞性由其在所屬語言的含義、形態和語法功能決定。以漢語為例,漢語的詞類系統有18個子類,包括7類體詞,4類謂詞、5類虛詞、代詞和感嘆詞。詞類不是閉合集,而是有兼詞現象,例如「**」在作為「服裝」和作為「動作」時會被歸入不同的詞類,因此詞性標註與上下文有關。對詞類的理論研究可以得到基於人工規則的詞性標註方法,這類方法對句子的形態進行分析並按預先給定的規則賦予詞類 。
詞性標註的機器學習演算法主要為序列模型,包括hmm、最大熵馬爾可夫模型(maximum entropy markov model, memm)、條件隨機場(conditional random fields,crfs)等廣義上的馬爾可夫模型成員 [2] ,以及以迴圈神經網路(recurrent neural network, rnn)為代表的深度學習演算法 。此外,一些機器學習的常規分類器,例如支援向量機(support vector machine, svm)在改進後也可用於詞性標註 。
hmm(隱含馬爾可夫模型):隱馬爾可夫模型(hidden markov model,hmm)是統計模型,它用來描述乙個含有隱含未知引數的馬爾可夫過程。其難點是從可觀察的引數中確定該過程的隱含引數。然後利用這些引數來作進一步的分析,例如模式識別。
基本演算法
針對以下三個問題,人們提出了相應的演算法
*1 評估問題: 前向演算法
*2 解碼問題: viterbi演算法
*3 學習問題: baum-welch演算法(向前向後演算法)
詞性標註是文字資料的預處理環節之一,原始文字在nlp或文字挖掘應用中,首先通過字元分割(word segmentation)和字元嵌入(word embedding)被向量化,隨後通過詞性標註得到高階層特徵,並輸入語法分析器執行語義分析(sentiment analysis)、指代消解(coreference resolution)等任務 。
1.程式簡單易行,開發周期短
2.僅需要很少的語言資源(詞表),不需要任何詞法,句法,語意資源
3.歧義消解能力差
4.切分正確率不高,一般在95%左右
上面我們提到,自動分詞面臨著三個問題:歧義問題、未登入詞問題、分詞標準問題,下面我們將對它們一一進行解釋。
歧義
這裡的歧義指的是切分歧義:對同乙個待切分字串存在多個分詞結果。分為交集型歧義、組合型歧義和混合歧義。
交集型歧義:字串abc既可以切分成a/bc,也可以切分成ab/c。其中,a、bc、ab、c是詞。
舉個例子:
「白天鵝」——「白天/鵝」、「白/天鵝」;
「研究生命」——「研究/生命」、「研究生/命」
至於具體要取哪一中分詞方法,需要根據上下文來推斷。
也許對於我們來說,這些歧義很好分辨,但是對計算機而言,這是乙個很重要的問題。
針對交集型歧義,提出鏈長這一概念:交集型切分歧義所擁有的交集串的個數稱為鏈長。
舉個例子(朋友們可以自己劃分一下,還蠻有趣的):
「中國產品質量」:,鏈長為4;
「部分居民生活水平」:,鏈長為6.
組合型歧義:若ab為詞,而a和b在句子中又可分別單獨成詞。
舉個例子:
「門把手弄壞了」——「門/把手/弄/壞/了」、「門/把/手/弄/壞/了」
「把手」本身是乙個詞,分開之後由可以分別成詞。
混合歧義:以上兩種情況通過巢狀、交叉組合等而產生的歧義。
舉個例子:
「這篇文章寫得太平淡了」,其中「太平」是組合型歧義,「太平淡」是交集型歧義。
通過上面的介紹可以看出,歧義問題在漢語中是十分常見的。
詞法分析與詞性標註學習之筆記(二) 詞性標註
詞性是詞彙的基本語法屬性,通常稱為詞類。詞性標註 part of speech tagging,pos tagging 也被稱為語法標註 grammatical tagging 或詞類消疑 word category disambiguation 是語料庫語言學 corpus linguistics...
中文分詞與詞性標註
概況介紹 中文分詞與詞性標註是自然語言處理的第乙個階段,是上層處理的基礎。分詞的主要研究內容是歧義切分和未登入詞識別。歧義切分是指對同乙個文字片斷具有不同的切分方式,如 結合成分子 這句話就有好幾種切分方法,但是正確的只有一種,能正確的進行歧義切分是分詞的乙個難點。分詞的另乙個難點是未登入詞識別,未...
詞性標註的詞性說明
1.cc coordinating conjunction 連線詞 2.cd cardinal number 基數詞 3.dt determiner 限定詞 如this,that,these,those,such,不定限定詞 no,some,any,each,every,enough,either,...