Python jieba分詞常用方法

2021-08-19 08:07:15 字數 2174 閱讀 6098

支援3中分詞模式:

1.全模式:把句子中的所有可以成詞的詞語都掃瞄出來,使用方法:jieba.cut(「字串」, cut_all=true, hmm=false)

2.精確模式:試圖將文字最精確的分開,適合於做文字分析。使用方法:jieba.cut(「字串」, cut_all=false, hmm=true)

3.搜尋引擎模式:在精確的基礎上對長詞進行進一步的切分。使用方法:jieba.cut_for_search(「字串」, hmm=false)

函式jieba.cut接受三個引數,cut(sentence, cut_all=false, hmm=true)。

其中sentence–>輸入文字,cut_all–>是否為全模式分詞,hmm–>是否開啟hmm進行中文分詞。返回的是乙個迭代器,使用for迴圈得到分詞後得到的每乙個詞語。

import sys

import jieba

import jieba.analyse

reload(sys)

sys.setdefaultencoding('utf-8')

data_str='可你覺得孤獨又能怎麼樣啊?你覺得孤獨也不過是心情更差而已嘛。以前沒什麼人跟你說話,你覺得孤獨,也還是沒人跟你說話啊。'

print '/'.join(jieba.cut(data_str,cut_all=false,hmm=true))
執行結果:

可/你/覺得/孤獨/又/能/怎麼樣/啊/?/你/覺得/孤獨/也/不過/是/心情/更差/而已/嘛/。/以前/沒什麼/人/跟/你/說話/,/你/覺得/孤獨/,/也/還是/沒人/跟/你/說話/啊/。
print '/'.join(jieba.cut(data_str,cut_all=true,hmm=true))
執行結果:

可/你/覺得/孤獨/又/能/怎麼/怎麼樣/啊///你/覺得/孤獨/也/不過/是/心情/更/差/而已/嘛///以前/沒什麼/什麼/人/跟/你/說話///你/覺得/孤獨///也/還是/沒人/跟/你/說話/啊//
print '/'.join(jieba.cut_for_search(data_str,hmm=true))
執行結果:

可/你/覺得/孤獨/又/能/怎麼/怎麼樣/啊/?/你/覺得/孤獨/也/不過/是/心情/更差/而已/嘛/。/以前/什麼/沒什麼/人/跟/你/說話/,/你/覺得/孤獨/,/也/還是/沒人/跟/你/說話/啊/。
print '/'.join(jieba.analyse.extract_tags(data_str))
執行結果:

孤獨/覺得/更差/說話/沒人/沒什麼/而已/怎麼樣/心情/以前/不過/還是
不新增詞語的話是這樣的

data_strs='如果黑暗中的蛾子曾經體會過那麼一點點光,它也不會不惜把整個世界都燒起來,只為了讓自己暖和起來。'

print '/'.join(jieba.analyse.extract_tags(data_strs,topk=20))

執行結果:

蛾子/暖和/不惜/一點點/起來/體會/黑暗/曾經/整個/為了/那麼/不會/世界/如果/自己
新增自定義的詞語後

jieba.add_word('黑暗中的蛾子')

print '/'.join(jieba.analyse.extract_tags(data_strs,topk=20))

執行結果:

黑暗中的蛾子/暖和/不惜/一點點/起來/體會/曾經/整個/為了/那麼/不會/世界/如果/自己
雲計算 5

李小福 2 nr

創新辦 3 i

easy_install 3 eng

好用 300

韓玉賞鑑 3 nz

八一雙鹿 3 nz

臺中凱特琳 nz

edu trust認證 2000

載入字典:

jieba.load_userdict("userdict.txt")
後面的**就和前面一樣了。

python jieba分詞 詞性標註

進行詞性標註 檔案讀取寫入 做實驗室的乙個專案,暫時要做的內容 對文字資料作摘要 8 首先觀察文字資料,我們需要擷取符號 open cut.txt r encoding utf 8 f1 open cut result.txt w encoding utf 8 for line in f.readl...

python jieba分詞庫的使用

測試環境 py3 win10 import jieba str test 有很多人擔心,美國一聲令下,會禁止所有的開源軟體被中國使用,這樣的擔憂是不必要的。返回迭代器 c1 jieba.cut str test c2 jieba.cut str test,cut all true c3 jieba....

python jieba分詞的安裝和使用

seg list jieba.cut 我來到北京清華大學 cut all true print full mode join seg list 全模式 seg list jieba.cut 我來到北京清華大學 cut all false print default mode join seg lis...