jieba分詞基本操作

2021-10-17 14:57:56 字數 2634 閱讀 7447

import jieba

tmpstr=

"我有哀牢山三十六劍"

res=jieba.cut(tmpstr)

print

('/'

.join(res)

)# 新增詞哀牢山三十六劍

jieba.add_word(

"哀牢山三十六劍"

)print

("新增新詞以後的分詞結果為: "

+'/'

.join(jieba.cut(tmpstr)))

# 刪除詞哀牢山三十六劍

jieba.del_word(

"哀牢山三十六劍"

)print

("刪除詞語以後的分詞結果為: "

+'/'

.join(jieba.cut(tmpstr)

))

執行結果為:

我/有/哀牢山/三十六/劍

新增新詞以後的分詞結果為: 我/有/哀牢山三十六劍

刪除詞語以後的分詞結果為: 我/有/哀牢山/三十六/劍

import jieba

tmpstr=

"我有哀牢山三十六劍"

dict

="data/金庸**詞庫.txt"

例如搜尋金庸

新列表=

[word for word in 源列表 if word not

in 停用詞列表]

newlist=

[w for w in jieba.cut(tmpstr)

if w notin[

'和',

"郭靖和哀牢山三十六劍。"

tmpdf=pd.read_csv(

'data/停用詞.txt'

"郭靖和哀牢山三十六劍。"

ana.set_stop_words(

'data/停用詞.txt'

)wuxiao=jieba.lcut(tmpstr)

#讀入的停用詞列表對分詞結果無效

"郭靖和哀牢山三十六劍。"

import jieba.posseg as psg

tmpres = psg.cut(tmpstr)

print

(tmpres)

for item in tmpres:

print

(item.word,item.flag)

psg.lcut(tmpstr)

psg.lcut(tmpstr)[1

]psg.lcut(tmpstr)[1

].word

輸出結果:

>

郭靖 x

和 c哀牢山三十六劍 x

。 x'和'

jieba 利用jieba分詞

目錄 三種分詞模式 新增自定義詞典進行分詞 jieba提供了三種分詞模式,分別是全模式,精確模式和搜尋引擎模式。全模式下會將所有可能的詞語都進行分詞,精確模式下會盡可能的將句子精確切開,搜尋引擎模式實在精確模式的基礎上,對長詞再進行劃分,提高分詞的召回率。使用cut和cut for search即可...

jieba分詞原理

關於jieba分詞的原理,在平時做文字方面的演算法時沒有仔細研究過,昨晚在網上看了一篇部落格,寫的很全面很詳細,其中有些深入的部分還並沒有完全看懂。jieba分詞系統介紹 涉及演算法 基於字首詞典實現詞圖掃瞄,生成句子中漢字所有可能成詞情況所構成的有向無環圖 dag 採用動態規劃查詢最大概率路徑,找...

Jieba分詞簡介

jieba分詞官網 jieba提供了三種分詞模式 精確模式,試圖將句子最精確地切開,適合文字分析 全模式,把句子中所有的可以成詞的詞語都掃瞄出來,速度非常快,但是不能解決歧義 搜尋引擎模式,在精確模式的基礎上,對長詞再次切分,提高召回率,適合用於搜尋引擎分詞。import jieba sent 用刀...