自然語言處理 詞性標註(北大,賓州)

2021-08-29 01:51:09 字數 3036 閱讀 1348

詞性標註在中文領域暫無統一的標註標準,最常見較為主流的是北大和賓州詞性標註集。

詞性編碼

詞性名稱

註解ag

形語素形容詞語素。形容詞**為a,語素**為g前面置以a

a形容詞

取英語形容詞adjective的第1個字母

ad副形詞

直接作狀語的形容詞。形容詞**a和副詞**d並在一起

an名形詞

具有名詞功能的形容詞。形容詞**a和名詞**n一起

b區別詞

取漢字「別」的聲母c連詞

去英語連詞conjunction的第1個字母

dg副語素

副詞性語素。副詞**為d,語素**g前面置以dd副詞

取adverb的第2個字母,因其第1個字母已用於形容詞e嘆詞

取英語嘆詞exclamation的第1個字母。

f方位詞

取漢字「方」g語素

絕大多數語素都能作為合成詞的「詞根」,取漢字「根」的聲母

h前接成分

取英語head的第1個字母i成語

取英語成語idiom的第1個字母

j簡稱略語

取漢字「簡」的聲母

k後接成分

l習用語

習用語尚未成為成語,有點「臨時性」,取「臨」的聲母m數詞

取英語numeral的第3個字母,n,u已有他用

ng名語素

名詞性語素。名詞**為n,語素**g前面置以nn名詞

取英語名詞noun的第1個字母

nr人名

名詞**n和「人(ren)」的聲母並在一起

ns地名

名詞**n和處所詞**s並在一起

nt機構團體

「團」的聲母為t,名詞**n和t並在一起

nz其他專名

「專」的聲母的第1個字母為z,名詞**n和z並在一起

o擬聲詞

取英語擬聲詞onomatopoeia的第1個字母。p介詞

取英語介詞prepositional的第1個字母q量詞

取英語quantity的第1個字母r代詞

取英語代詞pronoun的第2個字母,因p以用於介詞

s處所詞

取英語space的第1個字母

tg時語素

時間詞性語素。時間詞**為t,在語素的**g前面置以t

t時間詞

取英語time的第1個字母u助詞

取英語助詞auxiliary

vg動語素

動詞性語素。動詞**為v。在語素**g前面置以vv動詞

取英語動詞verb的第1個字母。

vd副動詞

直接作狀語的動詞。動詞和副詞的**並在一起。

vn名動詞

指具有名詞功能的動詞。動詞和名詞的**放在一起。

w標點符號

x非語素字

非語素字只是乙個符號,字母x通常用於代表未知數、符號

y語氣詞

取漢字「語」的聲母

z狀態詞

取漢字「狀」的聲母的前乙個字母。

un未知詞

不可識別詞及使用者自定義詞組。取英文unknown首兩個字母。

說明:在有些書中比如《python自然語言處理實戰核心技術演算法》這本書中,對於北大詞性標註集的介紹的標記全是小寫。這在此文中get到ag,dg,ng, vg四處是如此的寫法。

標記英語解釋

中文解釋

adadverbs

副詞as

aspect marker

體態詞,體標記(例如:了,在,著,過)

ba把 in ba-const

「把」,「將」的詞性標記

cccoordinating conjunction

並列連詞,「和」

cdcardinal numbers

數字,「一百」

cssubordinating conj

從屬連詞(例子:若,如果,如…)

dec的 for relative-clause etc

「的」詞性標記

degassociative

聯結詞「的」

derin v-de construction, and v-de-r

「得」dev

before vp地dt

determiner

限定詞,「這」

etctag for words, in coordination phrase

等,等等

fwforeign words

例子:iso

ijinterjetion

感嘆詞jj

noun-modifier other than nouns

lbin long bei-construction

例子:被,給

lclocalizer

定位詞,例子:「裡」

mmeasure word(including classifiers)

量詞,例子:「個」

mspsome particles

例子:「所」

nncommon nouns

普通名詞

nrproper nouns

專有名詞

nttemporal nouns

時序詞,表示時間的名詞

odordinal numbers

序數詞,「第一」

ononomatopoeia

擬聲詞,「哈哈」

ppreposition (excluding 把 and 被)

介詞pn

pronouns

代詞pu

punctuations

標點sb

in long bei-construction

例子:「被,給」

spsentence-final particle

句尾小品詞,「嗎」

vapredicative adjective

表語形容詞,「紅」

vccopula

系動詞,「是」

ve有 as the main verb

「有」vv

other verbs

其他動詞

自然語言處理之詞性標註

詞性標註作為nlp領域的一項基本任務,其與分詞任務同等重要,是很多任務的基礎,比如句法分析,命名實體識別等。命名實體識別在一定程度上也屬於標註任務,不過,難度相比一般的詞性標註而言,上公升了不少。對於詞性標註而言,不論是中文還是英文,其難點在於對於不同的語境,詞性的多變化 另一方面,隨著社會的發展,...

自然語言處理系列二十一》詞性標註》詞性標註原理

分布式機器學習實戰 人工智慧科學與技術叢書 陳敬雷編著 清華大學出版社 總結詞性標註 part of speech tagging,pos tagging 也被稱為語法標註 grammatical tagging 或詞類消疑 word category disambiguation 是語料庫語言學 ...

自然語言處理基礎技術之詞性標註實戰

安裝 pip install jieba 國內源安裝更快 pip install jieba i 先導包 jieba.posseg.dt 為預設詞性標註分詞器 標註句子分詞後每個詞的詞性,採用和 ictclas 相容的標記法。jieba貌似不能處理英文,後面會介紹處理英文的 import jieba...