結巴分詞jieba

2022-08-30 05:21:07 字數 3879 閱讀 2431

#

全模式text = "

我來到北京清華大學

"seg_list = jieba.cut(text, cut_all=true)

print u"

[全模式]:

", "/ "

.join(seg_list)

#精確模式

seg_list = jieba.cut(text, cut_all=false)

print u"

[精確模式]:

", "/ "

.join(seg_list)

#預設是精確模式

seg_list =jieba.cut(text)

print u"

[預設模式]:

", "/ "

.join(seg_list)

#新詞識別 「杭研」並沒有在詞典中,但是也被viterbi演算法識別出來了

seg_list = jieba.cut("

他來到了網易杭研大廈")

print u"

[新詞識別]:

", "/ "

.join(seg_list)

#搜尋引擎模式

seg_list =jieba.cut_for_search(text)

print u"

[搜尋引擎模式]:

", "

/ ".join(seg_list)

輸出結果:

[全模式]: 我/ 來到/ 北京/ 清華/ 清華大學/ 華大/大學

[精確模式]: 我/ 來到/ 北京/清華大學

[預設模式]: 我/ 來到/ 北京/清華大學

[新詞識別]: 他/ 來到/ 了/ 網易/ 杭研/大廈

[搜尋引擎模式]: 我/ 來到/ 北京/ 清華/ 華大/ 大學/ 清華大學

#

匯入自定義詞典

jieba.load_userdict("

dict.txt")

#全模式

text = "

故宮的著名景點包括乾清宮、太和殿和黃琉璃瓦等

"seg_list = jieba.cut(text, cut_all=true)

print u"

[全模式]:

", "/ "

.join(seg_list)

#精確模式

seg_list = jieba.cut(text, cut_all=false)

print u"

[精確模式]:

", "/ "

.join(seg_list)

#搜尋引擎模式

seg_list =jieba.cut_for_search(text)

print u"

[搜尋引擎模式]:

", "

/ ".join(seg_list)

輸出結果:

[全模式]:  故宮/ 的/ 著名/ 著名景點/ 景點/ 包括/ 乾清宮/ 清宮/ / / 太和/ 太和殿/ 和/ 黃琉璃瓦/ 琉璃/ 琉璃瓦/等

[精確模式]: 故宮/ 的/ 著名景點/ 包括/ 乾清宮/ 、/ 太和殿/ 和/ 黃琉璃瓦/等

[搜尋引擎模式]: 故宮/ 的/ 著名/ 景點/ 著名景點/ 包括/ 清宮/ 乾清宮/ 、/ 太和/ 太和殿/ 和/ 琉璃/ 琉璃瓦/ 黃琉璃瓦/ 等

#

精確模式

text = "

故宮的著名景點包括乾清宮、太和殿和午門等。其中乾清宮非常精美,午門是紫禁城的正門,午門居中向陽。

"seg_list = jieba.cut(text, cut_all=false)

print u"

分詞結果:

"print"/

".join(seg_list)

#tags = jieba.analyse.extract_tags(text, topk=3)

print u"

"print

"".join(tags)

輸出結果:

分詞結果:

故宮/的/著名景點/包括/乾清宮/、/太和殿/和/午門/等/。/其中/乾清宮/非常/精美/,/午門/是/紫禁城/的/正門/,/午門/居中/向陽/。

午門 乾清宮 著名景點

words = pseg.cut("

我愛北京天安門")

for w in

words:

print w.word, w.flag

輸出結果:

我 r

愛 v北京 ns

天安門 ns

ag形語素

形容詞性語素。形容詞**為 a,語素**g前面置以a。

a形容詞

取英語形容詞 adjective的第1個字母。

ad副形詞

直接作狀語的形容詞。形容詞** a和副詞**d並在一起。

an名形詞

具有名詞功能的形容詞。形容詞** a和名詞**n並在一起。

b區別詞

取漢字「別」的聲母。c連詞

取英語連詞 conjunction的第1個字母。

dg副語素

副詞性語素。副詞**為 d,語素**g前面置以d。d副詞

取 adverb的第2個字母,因其第1個字母已用於形容詞。e嘆詞

取英語嘆詞 exclamation的第1個字母。

f方位詞

取漢字「方」g語素

絕大多數語素都能作為合成詞的「詞根」,取漢字「根」的聲母。

h前接成分

取英語 head的第1個字母。i成語

取英語成語 idiom的第1個字母。

j簡稱略語

取漢字「簡」的聲母。

k後接成分

l習用語

習用語尚未成為成語,有點「臨時性」,取「臨」的聲母。m數詞

取英語 numeral的第3個字母,n,u已有他用。

ng名語素

名詞性語素。名詞**為 n,語素**g前面置以n。n名詞

取英語名詞 noun的第1個字母。

nr人名

名詞** n和「人(ren)」的聲母並在一起。

ns地名

名詞** n和處所詞**s並在一起。

nt機構團體

「團」的聲母為 t,名詞**n和t並在一起。

nz其他專名

「專」的聲母的第 1個字母為z,名詞**n和z並在一起。

o擬聲詞

取英語擬聲詞 onomatopoeia的第1個字母。p介詞

取英語介詞 prepositional的第1個字母。q量詞

取英語 quantity的第1個字母。r代詞

取英語代詞 pronoun的第2個字母,因p已用於介詞。

s處所詞

取英語 space的第1個字母。

tg時語素

時間詞性語素。時間詞**為 t,在語素的**g前面置以t。

t時間詞

取英語 time的第1個字母。u助詞

取英語助詞 auxiliary

vg動語素

動詞性語素。動詞**為 v。在語素的**g前面置以v。v動詞

取英語動詞 verb的第乙個字母。

vd副動詞

直接作狀語的動詞。動詞和副詞的**並在一起。

vn名動詞

指具有名詞功能的動詞。動詞和名詞的**並在一起。

w標點符號

x非語素字

非語素字只是乙個符號,字母 x通常用於代表未知數、符號。

y語氣詞

取漢字「語」的聲母。

z狀態詞

取漢字「狀」的聲母的前乙個字母。

un未知詞

不可識別詞及使用者自定義詞組。取英文unkonwn首兩個字母。(非北大標準,csw分詞中定義)

jieba(結巴)分詞種詞性簡介

jieba為自然語言語言中常用工具包,jieba具有對分詞的詞性進行標註的功能,詞性類別如下 ag 形語素形容詞性語素。形容詞 為 a,語素 前面置以a。a 形容詞取英語形容詞 adjective的第1個字母。ad 副形詞直接作狀語的形容詞。形容詞 a和副詞 d並在一起。an 名形詞具有名詞功能的形...

關閉jieba結巴分詞日誌輸出

使用結巴分詞,會輸出如下日誌 building prefix dict from usr lib python2.7 site packages jieba dict.txt loading model from cache tmp jieba.cache loading model cost 0....

結巴jieba分詞器的各種用法

import jieba jieba.version 預設模式就是精確模式 預設引數 sentence,cut all false,hmm true,use paddle false seg list jieba.cut 我來到北京清華大學 print list seg list 全模式 seg l...