詞性標註在中文領域暫無統一的標註標準,最常見較為主流的是北大和賓州詞性標註集。
詞性編碼
詞性名稱
註解ag
形語素形容詞語素。形容詞**為a,語素**為g前面置以a
a形容詞
取英語形容詞adjective的第1個字母
ad副形詞
直接作狀語的形容詞。形容詞**a和副詞**d並在一起
an名形詞
具有名詞功能的形容詞。形容詞**a和名詞**n一起
b區別詞
取漢字「別」的聲母c連詞
去英語連詞conjunction的第1個字母
dg副語素
副詞性語素。副詞**為d,語素**g前面置以dd副詞
取adverb的第2個字母,因其第1個字母已用於形容詞e嘆詞
取英語嘆詞exclamation的第1個字母。
f方位詞
取漢字「方」g語素
絕大多數語素都能作為合成詞的「詞根」,取漢字「根」的聲母
h前接成分
取英語head的第1個字母i成語
取英語成語idiom的第1個字母
j簡稱略語
取漢字「簡」的聲母
k後接成分
l習用語
習用語尚未成為成語,有點「臨時性」,取「臨」的聲母m數詞
取英語numeral的第3個字母,n,u已有他用
ng名語素
名詞性語素。名詞**為n,語素**g前面置以nn名詞
取英語名詞noun的第1個字母
nr人名
名詞**n和「人(ren)」的聲母並在一起
ns地名
名詞**n和處所詞**s並在一起
nt機構團體
「團」的聲母為t,名詞**n和t並在一起
nz其他專名
「專」的聲母的第1個字母為z,名詞**n和z並在一起
o擬聲詞
取英語擬聲詞onomatopoeia的第1個字母。p介詞
取英語介詞prepositional的第1個字母q量詞
取英語quantity的第1個字母r代詞
取英語代詞pronoun的第2個字母,因p以用於介詞
s處所詞
取英語space的第1個字母
tg時語素
時間詞性語素。時間詞**為t,在語素的**g前面置以t
t時間詞
取英語time的第1個字母u助詞
取英語助詞auxiliary
vg動語素
動詞性語素。動詞**為v。在語素**g前面置以vv動詞
取英語動詞verb的第1個字母。
vd副動詞
直接作狀語的動詞。動詞和副詞的**並在一起。
vn名動詞
指具有名詞功能的動詞。動詞和名詞的**放在一起。
w標點符號
x非語素字
非語素字只是乙個符號,字母x通常用於代表未知數、符號
y語氣詞
取漢字「語」的聲母
z狀態詞
取漢字「狀」的聲母的前乙個字母。
un未知詞
不可識別詞及使用者自定義詞組。取英文unknown首兩個字母。
說明:在有些書中比如《python自然語言處理實戰核心技術演算法》這本書中,對於北大詞性標註集的介紹的標記全是小寫。這在此文中get到ag,dg,ng, vg
四處是如此的寫法。
標記英語解釋
中文解釋
adadverbs
副詞as
aspect marker
體態詞,體標記(例如:了,在,著,過)
ba把 in ba-const
「把」,「將」的詞性標記
cccoordinating conjunction
並列連詞,「和」
cdcardinal numbers
數字,「一百」
cssubordinating conj
從屬連詞(例子:若,如果,如…)
dec的 for relative-clause etc
「的」詞性標記
degassociative
聯結詞「的」
derin v-de construction, and v-de-r
「得」dev
before vp地dt
determiner
限定詞,「這」
etctag for words, in coordination phrase
等,等等
fwforeign words
例子:iso
ijinterjetion
感嘆詞jj
noun-modifier other than nouns
lbin long bei-construction
例子:被,給
lclocalizer
定位詞,例子:「裡」
mmeasure word(including classifiers)
量詞,例子:「個」
mspsome particles
例子:「所」
nncommon nouns
普通名詞
nrproper nouns
專有名詞
nttemporal nouns
時序詞,表示時間的名詞
odordinal numbers
序數詞,「第一」
ononomatopoeia
擬聲詞,「哈哈」
ppreposition (excluding 把 and 被)
介詞pn
pronouns
代詞pu
punctuations
標點sb
in long bei-construction
例子:「被,給」
spsentence-final particle
句尾小品詞,「嗎」
vapredicative adjective
表語形容詞,「紅」
vccopula
系動詞,「是」
ve有 as the main verb
「有」vv
other verbs
其他動詞
自然語言處理之詞性標註
詞性標註作為nlp領域的一項基本任務,其與分詞任務同等重要,是很多任務的基礎,比如句法分析,命名實體識別等。命名實體識別在一定程度上也屬於標註任務,不過,難度相比一般的詞性標註而言,上公升了不少。對於詞性標註而言,不論是中文還是英文,其難點在於對於不同的語境,詞性的多變化 另一方面,隨著社會的發展,...
自然語言處理系列二十一》詞性標註》詞性標註原理
分布式機器學習實戰 人工智慧科學與技術叢書 陳敬雷編著 清華大學出版社 總結詞性標註 part of speech tagging,pos tagging 也被稱為語法標註 grammatical tagging 或詞類消疑 word category disambiguation 是語料庫語言學 ...
自然語言處理基礎技術之詞性標註實戰
安裝 pip install jieba 國內源安裝更快 pip install jieba i 先導包 jieba.posseg.dt 為預設詞性標註分詞器 標註句子分詞後每個詞的詞性,採用和 ictclas 相容的標記法。jieba貌似不能處理英文,後面會介紹處理英文的 import jieba...