結巴中文分詞安裝與使用

2021-08-01 00:14:57 字數 2495 閱讀 6638

1、安裝

pip install jieba

2、**示例

# encoding=utf-8

import jieba

seg_list = jieba.cut("我來到北京清華大學", cut_all=true)

print(full mode: " + "/ ".join(seg_list))

輸出:

我/ 來到/ 北京/ 清華/ 清華大學/ 華大/ 大學

另附詞性標註表如下:

1. 名詞 (1個一類,7個二類,5個三類)

名詞分為以下子類:

n 名詞

nr 人名

nr1 漢語姓氏

nr2 漢語名字

nrj 日語人名

nrf 音譯人名

ns 地名

nsf 音譯地名

nt 機構團體名

nz 其它專名

nl 名詞性慣用語

ng 名詞性語素

2. 時間詞(1個一類,1個二類)

t 時間詞

tg 時間詞性語素

3. 處所詞(1個一類)

s 處所詞

4. 方位詞(1個一類)

f 方位詞

5. 動詞(1個一類,9個二類)

v 動詞

vd 副動詞

vn 名動詞

vshi 動詞「是」

vyou 動詞「有」

vf 趨向動詞

vx 形式動詞

vi 不及物動詞(內動詞)

vl 動詞性慣用語

vg 動詞性語素

6. 形容詞(1個一類,4個二類)

a 形容詞

ad 副形詞

an 名形詞

ag 形容詞性語素

al 形容詞性慣用語

7. 區別詞(1個一類,2個二類)

b 區別詞

bl 區別詞性慣用語

8. 狀態詞(1個一類)

z 狀態詞

9. 代詞(1個一類,4個二類,6個三類)

r 代詞

rr 人稱代詞

rz 指示代詞

rzt 時間指示代詞

rzs 處所指示代詞

rzv 謂詞性指示代詞

ry 疑問代詞

ryt 時間疑問代詞

rys 處所疑問代詞

ryv 謂詞性疑問代詞

rg 代詞性語素

10. 數詞(1個一類,1個二類)

m 數詞

mq 數量詞

11. 量詞(1個一類,2個二類)

q 量詞

qv 動量詞

qt 時量詞

12. 副詞(1個一類)

d 副詞

13. 介詞(1個一類,2個二類)

p 介詞

pba 介詞「把」

pbei 介詞「被」

14. 連詞(1個一類,1個二類)

c 連詞

cc 並列連詞

15. 助詞(1個一類,15個二類)

u 助詞

uzhe 著

ule 了 嘍

uguo 過

ude1 的 底

ude2 地

ude3 得

usuo 所

udeng 等 等等 云云

uyy 一樣 一般 似的 般

udh 的話

uls 來講 來說 而言 說來

uzhi 之

ulian 連 (「連小學生都會」)

16. 嘆詞(1個一類)

e 嘆詞

17. 語氣詞(1個一類)

y 語氣詞(delete yg)

18. 擬聲詞(1個一類)

o 擬聲詞

19. 字首(1個一類)

h 字首

20. 字尾(1個一類)

k 字尾

21. 字串(1個一類,2個二類)

x 字串

xx 非語素字

xu **url

22. 標點符號(1個一類,16個二類)

w 標點符號

wkz 左括號,全形:( 〔 [ { 《 【 〖 〈 半形:( [ { <

wky 右括號,全形:) 〕 ] } 》 】 〗 〉 半形: ) ] { >

wyz 左引號,全形:「 『 『

wyy 右引號,全形:」 』 』

wj 句號,全形:。

ww 問號,全形:? 半形:?

wt 嘆號,全形:! 半形:!

wd 逗號,全形:, 半形:,

wf 分號,全形:; 半形: ;

wn 頓號,全形:、

wm 冒號,全形:: 半形: :

ws 省略號,全形:…… …

wp 破折號,全形:—— -- ——- 半形:--- ----

wb 百分號千分號,全形:% ‰ 半形:%

wh 單位符號,全形:¥ $ £ ° ℃ 半形:$

結巴中文分詞

人工智慧領域文字分類中最基本的就是分詞,分詞中最基礎的莫過於結巴分詞。分詞,顧名思義就是把一句話劃分成若干的詞語,只不過如今我們是讓電腦自動進行分詞。結巴中文分詞支援的三種模式分別為 1.全模式 把句子中所有成詞的詞語都掃瞄出來,速度非常快,但不能消除歧義。分詞結果 jieba.cut 文字名稱,c...

結巴中文分詞使用學習(python)

精確模式 預設 試圖將句子最精確地切開,適合文字分析 全模式,把句子中所有的可以成詞的詞語都掃瞄出來,但是不能解決歧義 搜尋引擎模式,在精確模式的基礎上,對長詞再次切分,提高召回率,該方法適合用於搜尋引擎構建倒排索引的分詞,粒度比較細。注意 jieba.cut以及jieba.cut for sear...

結巴中文分詞之PHP擴充套件

array jieba string text,bool use extract false,long extract limit 10 git clone cd phpjieba cjieba make cd phpize configure make make installextension ...