jieba是一種中文分詞工具,比較好用。獲取鏈結
支援三種分詞模式:
seglist = jieba.cut(
'雪見緩緩睜開眼睛又驚又喜'
,cut_all=
true
)# 全模式
print
(f'全模式:'
+'/'
.join(seglist)
)
全模式:雪/見/緩緩/睜開/睜開眼/睜開眼睛/開眼/眼睛/又驚又喜
seglist = jieba.cut(
'雪見緩緩睜開眼睛又驚又喜'
,cut_all=
false
)# 精準模式
print
(f'全模式:'
+'/'
.join(seglist)
)
精準模式:雪見/緩緩/睜開眼睛/又驚又喜
seglist = jieba.cut_for_search(
'雪見緩緩睜開眼睛又驚又喜'
)print
(f'全模式:'
+'/'
.join(seglist)
)
全模式:雪見/緩緩/睜開/開眼/眼睛/睜開眼/睜開眼睛/又驚又喜
使用 add_word(word,frq = none,tag = none) 和 del_word(word) 可在程式中動態的修改字典
jieba.add_word(
'振動力學'
)# 新增自定義詞語
jieba.add_word(
'亞索',frq =
22,tag =
'nz'
)# 設定詞頻和詞性
jieba.del_word(
'自定義詞'
)# 刪除特定詞語
jieba.analyse.set_stop_words(
'stop_words.txt'
)
jieba.posseg.postokenizer(tokenizer = none) 新建自定義分詞器,tokenizer引數可指定內部使用的jieba.tokenizer分詞器,jieba.posseg.dt為預設詞性標註分詞器
sent = pseg.cut(
'雪見緩緩睜開眼睛又驚又喜'
)for word,flag in sent:
print
(f','
)
雪見,nr
緩緩,d
睜開眼睛,n
又驚又喜,l
中文分詞 jieba
支援繁體分詞 支援自定義詞典 mit 授權協議 對 python 2 3 均相容 試圖將句子最精確地切開,適合文字分析 import jieba def main s u 我在人民廣場吃著炸雞 cut jieba.cut s print type cut for word in cut print ...
中文分詞工具 Jieba
jieba分詞值基於規則和統計這兩類方法。其首先基於字首詞典進行詞圖掃瞄,字首詞典是指詞典中的詞按照字首的包含順序排列的,從而形成一種層級包含結構。這種字首詞典的好處便是可以快速構建包含全部可能分詞結果的有向無環圖,這個圖包含多條分詞路徑,無環是指節點間不構成閉環。然後基於標註語料,使用動態規劃演算...
python 中文jieba分詞
import os import jieba from collections import counter def words txt print jieba.cut txt lista jieba.cut txt 返回的結構都是乙個可迭代的 generator,可以使用 for 迴圈來獲得分詞後...