詞語切分與詞性標註 規範與加工手冊

2021-08-23 15:34:46 字數 3315 閱讀 9394

現代漢語語料庫詞語切分和詞性標註規範在現代分詞系統被廣泛使用,中科院的分詞系統中的詞性標註也差不多採用這個標記集合。yard中文分詞系統在後面的版本中也將採用這個標記集合。

按**的字母順序排列的標記集

**    名稱        幫助記憶的詮釋

ag 形語素 形容詞性語素。形容詞**為a,語素**g前面置以a。

a 形容詞 取英語形容詞adjective的第1個字母。

ad 副形詞 直接作狀語的形容詞。形容詞**a和副詞**d並在一起。

an 名形詞 具有名詞功能的形容詞。形容詞**a和名詞**n並在一起。

b 區別詞 取漢字「別」的聲母。

c 連詞 取英語連詞conjunction的第1個字母。

dg 副語素 副詞性語素。副詞**為d,語素**g前面置以d。

d 副詞 取adverb的第2個字母,因其第1個字母已用於形容詞。

e 嘆詞 取英語嘆詞exclamation的第1個字母。

f 方位詞 取漢字「方」 的聲母。

g 語素 絕大多數語素都能作為合成詞的「詞根」,取漢字「根」的聲母。

h 前接成分 取英語head的第1個字母。

i 成語 取英語成語idiom的第1個字母。

j 簡稱略語 取漢字「簡」的聲母。

k 後接成分

l 習用語 習用語尚未成為成語,有點「臨時性」,取「臨」的聲母。

m 數詞 取英語numeral的第3個字母,n,u已有他用。

ng 名語素 名詞性語素。名詞**為n,語素**g前面置以n。

n 名詞 取英語名詞noun的第1個字母。

nr 人名 名詞**n和「人(ren)」的聲母並在一起。

ns 地名 名詞**n和處所詞**s並在一起。

nt 機構團體 「團」的聲母為t,名詞**n和t並在一起。

nz 其他專名 「專」的聲母的第1個字母為z,名詞**n和z並在一起。

o 擬聲詞 取英語擬聲詞onomatopoeia的第1個字母。

p 介詞 取英語介詞prepositional的第1個字母。

q 量詞 取英語quantity的第1個字母。

r 代詞 取英語代詞pronoun的第2個字母,因p已用於介詞。

s 處所詞 取英語space的第1個字母。

tg 時語素 時間詞性語素。時間詞**為t,在語素的**g前面置以t。

t 時間詞 取英語time的第1個字母。

u 助詞 取英語助詞auxiliary 的第2個字母,因a已用於形容詞。

vg 動語素 動詞性語素。動詞**為v。在語素的**g前面置以v。

v 動詞 取英語動詞verb的第乙個字母。

vd 副動詞 直接作狀語的動詞。動詞和副詞的**並在一起。

vn 名動詞 指具有名詞功能的動詞。動詞和名詞的**並在一起。

w 標點符號

x 非語素字 非語素字只是乙個符號,字母x通常用於代表未知數、符號。

y 語氣詞 取漢字「語」的聲母。

z 狀態詞 取漢字「狀」的聲母的前乙個字母。

按名稱的漢語拼音順序排列的標記集

名稱      **    拼音

標點符號 w biao1dian3fu2hao4

成語 i cheng2yu3

處所詞 s chu4suo3ci2

代詞 r dai4ci2

地名 ns di4ming2

動詞 v dong4ci2

動語素 vg dong4yu3su4

方位詞 f fang1wei4ci2

非語素字 x fei1yu3su4zi4

副詞 d fu4ci2

副動詞 vd fu4dong4ci2

副形詞 ad fu4xing2ci2

副語素 dg fu4yu3su4

後接成分 k hou4jie1cheng2fen4

機構團體 nt ji1gou4tuan2ti3

簡稱略語 j jian3cheng1lve4yu3

介詞 p jie4ci2

連詞 c lian2ci2

量詞 q liang4ci2

名詞 n ming2ci2

名動詞 vn ming2dong4ci2

名形詞 an ming2xing2ci2

名語素 ng ming2yu3su4

擬聲詞 o ni2sheng1ci2

其他專名 nz qi2ta1zhuan1ming2

前接成分 h qian2jie1cheng2fen4

區別詞 b qu1bie2ci2

人名 nr ren2ming2

時間詞 t shi2jian1ci2

時語素 tg shi2yu3su4

數詞 m shu4ci2

嘆詞 e tan4ci2

習用語 l xi1yong4yu3

形容詞 a xing2rong2ci2

形語素 ag xing2yu3su4

語氣詞 y yu3qi4ci2

語素 g yu3su4

助詞 u zhu4ci2

狀態詞 z zhuang4tai4ci2

中文分詞與詞性標註

概況介紹 中文分詞與詞性標註是自然語言處理的第乙個階段,是上層處理的基礎。分詞的主要研究內容是歧義切分和未登入詞識別。歧義切分是指對同乙個文字片斷具有不同的切分方式,如 結合成分子 這句話就有好幾種切分方法,但是正確的只有一種,能正確的進行歧義切分是分詞的乙個難點。分詞的另乙個難點是未登入詞識別,未...

詞法分析與詞性標註

詞法分析與詞性標註 詞法分析概念 詞性標註概念 詞性標註理論基礎 詞性標註演算法 詞性標註應用 形態分析的方法 1.切分方法 2.最大匹配法 1 正向 2 逆向 3 雙向 3.最少分詞法 最短路徑法 4.基於語言模型的分詞方法 5.基於hmm的分詞方法 6.將生成式方法和判別式方法結合起來 自動分詞...

詞法分析與詞性標註學習之筆記(二) 詞性標註

詞性是詞彙的基本語法屬性,通常稱為詞類。詞性標註 part of speech tagging,pos tagging 也被稱為語法標註 grammatical tagging 或詞類消疑 word category disambiguation 是語料庫語言學 corpus linguistics...