jieba庫的基本使用

2021-10-01 15:54:03 字數 3890 閱讀 5433

import jieba

# 朱自清散文節選

text =

'人生就是一種承受,一種壓力,讓我們在負重中前行,在逼迫中奮進。無論走到**,我們都要學會支撐自己,沒有人陪你走一輩子,所以你要適應孤獨,沒有人會幫你一輩子,所以你要奮鬥一生。'

seg_text = jieba.cut(text, cut_all=

false

)print

('/'

.join(seg_text)

)

人生/就是/一種/承受/,/一種/壓力/,/讓/我們/在/負重/中/前行/,/在/逼迫/中/奮進/。/無論/走/到/**/,/我們/都/要/學會/支撐/自己/,/沒有/人/陪你走/一輩子/,/所以/你/要/適應/孤獨/,/沒有/人會/幫/你/一輩子/,/所以/你/要/奮鬥/一生/。

import jieba

# 《人民的民義》節選

text =

'屋內,祁同偉一手扶著架在窗台上的狙擊步槍,一手握著制式手槍,久久屏住呼吸。小院落裡空空蕩蕩的,沒有任何隱蔽物。侯亮平的身影出現了,一顆腦袋晃動著顯現在狙擊步槍的瞄準儀裡。'

# 新增新詞之前

seg_text_ = jieba.cut(text, cut_all=

false

)print

('/'

.join(seg_text_)

)# 新增新詞之後

jieba.suggest_freq(

'祁同偉'

,true

)jieba.suggest_freq(

'侯亮平'

,true

)jieba.suggest_freq(

'瞄準儀'

,true

)seg_text = jieba.cut(text, cut_all=

false

)print

('/'

.join(seg_text)

)

屋內/,/祁同偉/一/手扶/著/架/在/窗台上/的/狙擊步槍/,/一/手握著/制式/手槍/,/久久/屏住/呼吸/。/小/院落/裡/空空蕩蕩/的/,/沒有/任何/隱蔽物/。/侯亮/平/的/身影/出現/了/,/一顆/腦袋/晃動/著/顯現/在/狙擊步槍/的/瞄準/儀裡/。

屋內/,/祁同偉/一/手扶/著/架/在/窗台上/的/狙擊步槍/,/一/手握著/制式/手槍/,/久久/屏住/呼吸/。/小/院落/裡/空空蕩蕩/的/,/沒有/任何/隱蔽物/。/侯亮平/的/身影/出現/了/,/一顆/腦袋/晃動/著/顯現/在/狙擊步槍/的/瞄準儀/裡/。

import jieba.posseg as pseg

# 朱自清散文節選

text =

'人生就是一種承受,一種壓力,讓我們在負重中前行,在逼迫中奮進。無論走到**,我們都要學會支撐自己,沒有人陪你走一輩子,所以你要適應孤獨,沒有人會幫你一輩子,所以你要奮鬥一生。'

result = pseg.cut(text)

words =

for w in result:

(w.word, w.flag)

)# 單詞和詞性

print

(words)

[(『人生』, 『n』), (『就是』, 『d』), (『一種』, 『m』), (『承受』, 『v』), (』,』, 『x』), (『一種』, 『m』), (『壓力』, 『n』), (』,』, 『x』), (『讓』, 『v』), (『我們』, 『r』), (『在』, 『p』), (『負重』, 『v』), (『中』, 『f』), (『前行』, 『v』), (』,』, 『x』), (『在』, 『p』), (『逼迫』, 『v』), (『中』, 『f』), (『奮進』, 『v』), (』。』, 『x』), (『無論』, 『c』), (『走』, 『v』), (『到』, 『v』), (『**』, 『r』), (』,』, 『x』), (『我們』, 『r』), (『都』, 『d』), (『要』, 『v』), (『學會』, 『n』), (『支撐』, 『v』), (『自己』, 『r』), (』,』, 『x』), (『沒有』, 『v』), (『人』, 『n』), (『陪你走』, 『l』), (『一輩子』, 『m』), (』,』, 『x』), (『所以』, 『c』), (『你』, 『r』), (『要』, 『v』), (『適應』, 『v』), (『孤獨』, 『a』), (』,』, 『x』), (『沒有』, 『v』), (『人會』, 『n』), (『幫』, 『v』), (『你』, 『r』), (『一輩子』, 『m』), (』,』, 『x』), (『所以』, 『c』), (『你』, 『r』), (『要』, 『v』), (『奮鬥』, 『v』), (『一生』, 『m』), (』。』, 『x』)]

import jieba.analyse

# 朱自清散文節選

text =

'人生就是一種承受,一種壓力,讓我們在負重中前行,在逼迫中奮進。無論走到**,我們都要學會支撐自己,沒有人陪你走一輩子,所以你要適應孤獨,沒有人會幫你一輩子,所以你要奮鬥一生。'

keywords = jieba.analyse.extract_tags(text, topk=5)

print

(keywords)

[『一輩子』, 『陪你走』, 『人會』, 『奮進』, 『負重』]

import jieba

# 朱自清散文節選

text =

'人生就是一種承受,一種壓力,讓我們在負重中前行,在逼迫中奮進。無論走到**,我們都要學會支撐自己,沒有人陪你走一輩子,所以你要適應孤獨,沒有人會幫你一輩子,所以你要奮鬥一生。'

result = jieba.tokenize(text, mode=

'search'

)# 搜尋模式

words =

for w in result:

(w[0

], w[1]

, w[2]

))# 單詞/起點/終點

print

(words)

[(『人生』, 0, 2), (『就是』, 2, 4), (『一種』, 4, 6), (『承受』, 6, 8), (』,』, 8, 9), (『一種』, 9, 11), (『壓力』, 11, 13), (』,』, 13, 14), (『讓』, 14, 15), (『我們』, 15, 17), (『在』, 17, 18), (『負重』, 18, 20), (『中』, 20, 21), (『前行』, 21, 23), (』,』, 23, 24), (『在』, 24, 25), (『逼迫』, 25, 27), (『中』, 27, 28), (『奮進』, 28, 30), (』。』, 30, 31), (『無論』, 31, 33), (『走』, 33, 34), (『到』, 34, 35), (『**』, 35, 37), (』,』, 37, 38), (『我們』, 38, 40), (『都』, 40, 41), (『要』, 41, 42), (『學會』, 42, 44), (『支撐』, 44, 46), (『自己』, 46, 48), (』,』, 48, 49), (『沒有』, 49, 51), (『人』, 51, 52), (『陪你走』, 52, 55), (『一輩』, 55, 57), (『輩子』, 56, 58), (『一輩子』, 55, 58), (』,』, 58, 59), (『所以』, 59, 61), (『你』, 61, 62), (『要』, 62, 63), (『適應』, 63, 65), (『孤獨』, 65, 67), (』,』, 67, 68), (『沒有』, 68, 70), (『人會』, 70, 72), (『幫』, 72, 73), (『你』, 73, 74), (『一輩』, 74, 76), (『輩子』, 75, 77), (『一輩子』, 74, 77), (』,』, 77, 78), (『所以』, 78, 80), (『你』, 80, 81), (『要』, 81, 82), (『奮鬥』, 82, 84), (『一生』, 84, 86), (』。』, 86, 87)]

jieba庫的使用

jieba是優秀的中文分詞第三方庫 中文文字需要通過分詞獲得單個的詞語 jieba是優秀的中文分詞第三方庫,需要額外安裝 jieba庫提供三種分詞模式,最簡單只需掌握乙個函式 cmd命令列 pip install jieba jieba分詞依靠中文詞庫 利用乙個中文詞庫,確定漢字之間的關聯概率 漢字...

jieba庫的使用

1.jieba庫概述 jieba是優秀的中文分詞第三方庫 2.jieba庫的安裝 cmd命令列 pip install jieba 3.jieba的分詞原理 4.jieba庫的使用 4.1 jieba分詞的的三種模式 4.2 jieba庫常用函式 詞頻統計例項 英文文字 哈姆雷特 英文版 要點 文字...

jieba庫的使用

如何安裝jieba?我們使用cmd命令輸入python m pip install jieba 等一段時間就下好了。jieba庫有啥用?就是將中文語句進行分詞 它有幾種模式 精確模式 全模式 搜尋引擎模式 精確模式 把文字精確地切分開,不存在冗餘單詞 全模式 把文字中所有可能的詞語都掃瞄出來,有冗餘...