詞性作為詞語基本的語法屬性,是詞語和語句的關鍵性特徵。詞性種類也很多,ictclas 漢語詞性標註集歸納的詞性種類及其表示見
詞性標註中的難點主要有
相對於英文,中文缺少詞形態變化,不能從詞的形態來識別詞性
一詞多詞性很常見。統計發現,一詞多詞性的概率高達22.5%。而且越常用的詞,多詞性現象越嚴重。比如「研究」既可以是名詞(「基礎性研究」),也可以是動詞(「研究電腦科學」)。
詞性劃分標準不統一。詞類劃分粒度和標記符號等,目前還沒有乙個廣泛認可的統一的標準。比如ldc標註語料中,將漢語一級詞性劃分為33類,而北京大學語料庫則將其劃分為26類。詞類劃分標準和標記符號的不統一,以及分詞規範的含糊,都給詞性標註帶來了很大的困難。jieba分詞採用了使用較為廣泛的ictclas 漢語詞性標註集規範。
未登入詞問題。和分詞一樣,未登入詞的詞性也是乙個比較大的課題。未登入詞不能通過查詢字典的方式獲取詞性,可以採用hmm隱馬爾科夫模型等基於統計的演算法。
先對語句進行分詞,然後從字典中查詢每個詞語的詞性,對其進行標註即可。jieba詞性標註中,對於識別出來的詞語,就是採用了這種方法。這種方法比較簡單,通俗易懂,但是不能解決一詞多詞性的問題,因此存在一定的誤差。
和分詞一樣,我們也可以通過hmm隱馬爾科夫模型來進行詞性標註。觀測序列即為分詞後的語句,隱藏序列即為經過標註後的詞性標註序列。起始概率 發射概率和轉移概率和分詞中的含義大同小異,可以通過大規模語料統計得到。觀測序列到隱藏序列的計算可以通過viterbi演算法,利用統計得到的起始概率 發射概率和轉移概率來得到。得到隱藏序列後,就完成了詞性標註過程。
這類方法的主要特點在於對統計標註結果的篩選,只對那些被認為可疑的標註結果,才採用規則方法進行歧義消解,而不是對所有情況都既使用統計方法又使用規則方法。
可以當作序列標註的任務來做,目前深度學習解決序列標註任務常用方法包括lstm+crf、bilstm+crf 等。
詞法分析與詞性標註學習之筆記(二) 詞性標註
詞性是詞彙的基本語法屬性,通常稱為詞類。詞性標註 part of speech tagging,pos tagging 也被稱為語法標註 grammatical tagging 或詞類消疑 word category disambiguation 是語料庫語言學 corpus linguistics...
詞性標註的詞性說明
1.cc coordinating conjunction 連線詞 2.cd cardinal number 基數詞 3.dt determiner 限定詞 如this,that,these,those,such,不定限定詞 no,some,any,each,every,enough,either,...
LTP詞性標註
a adjective 形容詞 美麗 b other noun modifier 其他的修飾名詞 大型,西式 c conjunction 連詞 和,雖然 d adverb 副詞 很 e exclamation 感嘆詞 哎 g morpheme 茨,甥 h prefix 字首 阿,偽 i idiom ...