將詞性標註轉為數學描述問題。此文參考 nlp --- 詞性標註
詞性標註任務描述,已知句子s的單詞序列 \(w\)為\((w_1,w_2,...,w_n)\),則該句子對應的詞性序列\(t=(t_1,t_2,...,t_n)\)便為隱藏的狀態序列。現在假設\(w\)為分詞後的句子序列,\(t\)是\(w\)的某個可能的詞性標註序列,\(t^*\)為最終的標註結果,即概率最大的詞性序列,則有
\[t^* = argmaxp(t|w)
\]根據貝葉斯定理
\[p(b|a)=\frac
\]則有
\[t^* = argmaxp(t|w)=argmax\frac
\]對於乙個給定的詞序列 \(w\),其詞序列的概率\(p(w)\)對於任意乙個標註的序列都是相同的,故可以將上式的\(p(w)\)忽略,變為下式
\[t^* = argmaxp(t|w)=argmaxp(w|t)p(t)
\]我們對上式右側計算進行說明
\[p(w|t)p(t)=p((w_1,w_2,...,w_n)|(t_1,t_2,...,t_n))p((t_1,t_2,...,t_n))
\]針對 \(p(w|t)=p((w_1,w_2,...,w_n)|(t_1,t_2,...,t_n))\),我們利用馬爾科夫假設,每個單詞的詞性僅與該單詞相關,則
\[p(w|t)=p((w_1,w_2,...,w_n)|(t_1,t_2,...,t_n))=p(w_1|t_1)p(w_2|t_2)...p(w_n|t_n)=\prod_^p(w_i|t_i)
\]針對 \(p((t_1,t_2,...,t_n))\)利用鏈式法則及bigram語言模型可以轉換為下式
\[p((t_1,t_2,...,t_n))=p(t_1)p(t_2|t_1)p(t_3|t_2)...p(t_n|t_)=p(t_1)\prod_^p(t_i|t_)
\]整合上述兩式與求 \(t^*\)整合
\[t^* = argmaxp(t|w)=argmaxp(w|t)p(t)=\prod_^p(w_i|t_i)p(t_1)\prod_^p(t_i|t_)
\]其中 \(p(w_i|t_i)\)解釋為詞性為\(t_i\)的詞\(w_i\)的概率,\(p(t_i|t_)\)解釋為詞性\(t_\)到詞性\(t_i\)轉移的概率。這兩個概率的統計可以基於語料採用最大似然估計來統計得到
\[p(w_i|t_i)=\frac \\
p(t_i|t_)=\frac)}))}
\]其中 \(c(w_i,t_i)\)指語料庫中詞\(w_i\)詞性為\(t_i\)的出現次數,\(c(t_i)\)表示詞性\(t_i\)出現的次數;\(c(t_i,t_)\)則為相鄰兩個詞性\(t_,t_i\)出現的次數(考慮先後順序)。
我們知道,在概率的計算中經常會出現underflow問題,所以一般我們都會對概率計算的兩端取對數處理,上式轉換為
\[t^* = argmaxlogp(t|w)=argmaxlogp(w|t)p(t)=argmaxlog\prod_^p(w_i|t_i)p(t_1)\prod_^p(t_i|t_)=argmax(\sum_^logp(w_i|t_i)+logp(t_1)+\sum_^logp(t_i|t_))\]令
\[a=p(w_i|t_i)
\\\pi=p(t_1)
\\b=p(t_i|t_)
\]上述的表述便於後續我們對維特比演算法的描述,其中a是詞性為 \(t_i\)的詞\(w_i\)的概率,\(\pi\)可以解釋為開頭的詞性概率,b可解釋為為詞性\(t_\)到詞性\(t_i\)轉移的概率。
詞性標註的詞性說明
1.cc coordinating conjunction 連線詞 2.cd cardinal number 基數詞 3.dt determiner 限定詞 如this,that,these,those,such,不定限定詞 no,some,any,each,every,enough,either,...
LTP詞性標註
a adjective 形容詞 美麗 b other noun modifier 其他的修飾名詞 大型,西式 c conjunction 連詞 和,雖然 d adverb 副詞 很 e exclamation 感嘆詞 哎 g morpheme 茨,甥 h prefix 字首 阿,偽 i idiom ...
jieba詞性標註
ag 形語素形容詞性語素。形容詞 為a,語素 前面置以a。a形容詞 取英語形容詞adjective的第1個字母。ad副形詞 直接作狀語的形容詞。形容詞 a和副詞 d並在一起。an名形詞 具有名詞功能的形容詞。形容詞 a和名詞 n並在一起。b區別詞 取漢字 別 的聲母。c連詞 取英語連詞conjunc...