計算所漢語詞性標記集version 3.0
制訂人:劉群 張華平 張浩
計算所漢語詞性標記集 1
0. 說明 1
1. 名詞 (1個一類,7個二類,5個三類) 2
2. 時間詞(1個一類,1個二類) 2
3. 處所詞(1個一類) 3
4. 方位詞(1個一類) 3
5. 動詞(1個一類,9個二類) 3
6. 形容詞(1個一類,4個二類) 3
7. 區別詞(1個一類,2個二類) 3
8. 狀態詞(1個一類) 3
9. 代詞(1個一類,4個二類,6個三類) 3
10. 數詞(1個一類,1個二類) 4
11. 量詞(1個一類,2個二類) 4
12. 副詞(1個一類) 4
13. 介詞(1個一類,2個二類) 4
14. 連詞(1個一類,1個二類) 4
15. 助詞(1個一類,15個二類) 4
16. 嘆詞(1個一類) 4
17. 語氣詞(1個一類) 5
18. 擬聲詞(1個一類) 5
19. 字首(1個一類) 5
20. 字尾(1個一類) 5
21. 字串(1個一類,2個二類) 5
22. 標點符號(1個一類,16個二類) 5
0.說明
1.北大《人民**》語料庫詞性標記集;
2.北大2002新版詞性標記集(草稿);
3.清華大學漢語樹庫詞性標記集;
4.教育部語用所詞性標記集(國家推薦標準草案2002版);
5.美國賓州大學中文樹庫(chinesepenntreebank)詞性標記集;
由於計算所的漢語詞法分析器主要採用北大《人民**》語料庫進行引數訓練,因此本
詞性標記集主要以北大《人民**》語料庫的詞性標記集為藍本,並參考了北大《漢語語法資訊詞典》中給出的漢語詞的語法資訊。
本標記集在制定過程中主要考慮了以下幾方面的因素:
1.有助於提高漢語詞法分析器的切分和標註正確率;
2.有助於提高漢語句法分析器的正確率;
3.有助於漢英機器翻譯系統進行翻譯;
4.易於從北大《人民**》語料庫詞性標記集進行轉換;
5.對於語法功能不同的詞,在不造成詞法分析和句法分析歧義區分困難的情況下,盡可能細分子類。
基於以上考慮,我們在標註過程中盡量避免那些容易出錯的詞性標記,而採用那些不容易出錯、而對提高漢語詞法句法分析正確率有明顯作用的標記。例如,在動詞的子類中,我們參考了賓州大學中文樹庫的做法,把漢語動詞「是」和「有」分別做成單獨的標記,而沒有採用「系動詞」的標記。因為同樣是「是」這個動詞,其句法功能很多,作「系動詞」只是其中一種功能,而要區分這些功能是非常困難的,會導致詞法分析的正確率下降。
在名詞子類中,我們區分了「漢語人名」、「日語人名」和「翻譯人名」,這不僅僅是因為這三種人名要採用不同的引數進行訓練與識別,而且在漢英機器翻譯中也要採用不同的分析演算法進行翻譯。又如,我們把表示時間的「數詞+『年』」(如「2023年」)合併成乙個時間詞,而表示年頭的「數詞+『年』」分別標註為「數詞」和「量詞」,這是因為我們通過實驗發現這種區分在詞法分析階段通過統計方法可以達到較高的正確率,而且這種區分對於後續的句法分析和機器翻譯有非常重要的作用。
對於某些詞類(助詞和標點符號),基本上是乙個封閉集,而這些詞類中各個詞的語法功能相差很大,在這種情況下,我們盡可能地細分其子類。
另外,與其他詞性標記集類似,在我們的標記體系中,小類只是大類中一些有必要區分的一些特例,但小類的劃分不滿足完備性。
1.名詞 (1個一類,7個二類,5個三類)
名詞分為以下子類:
n 名詞
nr 人名
nr1 漢語姓氏
nr2 漢語名字
nrj 日語人名
nrf 音譯人名
ns 地名
nsf 音譯地名
nt 機構團體名
nz 其它專名
nl 名詞性慣用語
ng 名詞性語素
2.時間詞(1個一類,1個二類)
t 時間詞
tg 時間詞性語素
3.處所詞(1個一類)
s 處所詞
4.方位詞(1個一類)
f 方位詞
5.動詞(1個一類,9個二類)
v 動詞
vd 副動詞
vn 名動詞
vshi 動詞「是」
vyou 動詞「有」
vf 趨向動詞
vx 形式動詞
vi 不及物動詞(內動詞)
vl 動詞性慣用語
vg 動詞性語素
6.形容詞(1個一類,4個二類)
a 形容詞
ad 副形詞
an 名形詞
ag 形容詞性語素
al 形容詞性慣用語
7.區別詞(1個一類,2個二類)
b 區別詞
bl 區別詞性慣用語
8.狀態詞(1個一類)
z 狀態詞
9.代詞(1個一類,4個二類,6個三類)
r 代詞
rr 人稱代詞
rz 指示代詞
rzt 時間指示代詞
rzs 處所指示代詞
rzv 謂詞性指示代詞
ry 疑問代詞
ryt 時間疑問代詞
rys 處所疑問代詞
ryv 謂詞性疑問代詞
rg 代詞性語素
10.數詞(1個一類,1個二類)
m 數詞
mq 數量詞
11.量詞(1個一類,2個二類)
q 量詞
qv 動量詞
qt 時量詞
12.副詞(1個一類)
d 副詞
13.介詞(1個一類,2個二類)
p 介詞
pba 介詞「把」
pbei 介詞「被」
14.連詞(1個一類,1個二類)
c 連詞
cc 並列連詞
15.助詞(1個一類,15個二類)
u 助詞
uzhe 著
ule 了 嘍
uguo 過
ude1 的 底
ude2 地
ude3 得
usuo 所
udeng 等 等等 云云
uyy 一樣 一般 似的 般
udh 的話
uls 來講 來說 而言 說來
uzhi 之
ulian 連 (「連小學生都會」)
16.嘆詞(1個一類)
e 嘆詞
17.語氣詞(1個一類)
y 語氣詞(delete yg)
18.擬聲詞(1個一類)
o 擬聲詞
19.字首(1個一類)
h 字首
20.字尾(1個一類)
k 字尾
21.字串(1個一類,2個二類)
x 字串
xx 非語素字
xu **url
22.標點符號(1個一類,16個二類)
w 標點符號
wkz 左括號,全形:( 〔 [ { 《 【 〖 〈 半形:( [ { <
wky 右括號,全形:) 〕 ] } 》 】 〗 〉 半形: ) ] { >
wyz 左引號,全形:「 『 『
wyy 右引號,全形:」 』 』
wj 句號,全形:。
ww 問號,全形:? 半形:?
wt 嘆號,全形:! 半形:!
wd 逗號,全形:, 半形:,
wf 分號,全形:; 半形: ;
wn 頓號,全形:、
wm 冒號,全形:: 半形: :
ws 省略號,全形:…… …
wp 破折號,全形:—— -- ——- 半形:--- ----
wb 百分號千分號,全形:% ‰ 半形:%
wh 單位符號,全形:¥ $ £ ° ℃ 半形:$
北大計算所詞性標註集簡表
名稱 幫助記憶的詮釋 ag 形語素 形容詞性語素。形容詞 為a,語素 前面置以a。a 形容詞 取英語形容詞adjective的第1個字母。ad 副形詞 直接作狀語的形容詞。形容詞 a和副詞 d並在一起。an 名形詞 具有名詞功能的形容詞。形容詞 a和名詞 n並在一起。b 區別詞 取漢字 別 的聲母。...
NLPIR詞性標記集
version 3.0 制訂人 劉群 張華平 張浩 名詞分為以下子類 n 名詞 nr 人名 nr1 漢語姓氏 nr2 漢語名字 nrj 日語人名 nrf 音譯人名 ns 地名 nsf 音譯地名 nt 機構團體名 nz 其它專名 nl 名詞性慣用語 ng 名詞性語素 t 時間詞 tg 時間詞性語素 s...
計算所住宿
想要來中科院計算所的學弟學妹一定很想知道住宿條件如何 因為我入學以前也一直想知道住宿條件 研一的時候是在雁西湖集中教學,住的是單人間 但是由於床位緊張,有可能男生住的是兩人間 大約9個人或者是個人共享乙個客廳,洗漱間,環境更類似於單元房。研二的時候住在青年公寓或者是科一招,是通過隨機分的。中科一招今...