jieba分詞基本操作

import jieba
tmpstr=
"我有哀牢山三十六劍"
res=jieba.cut(tmpstr)
print
('/'
.join(res)
)# 新增詞哀牢山三十六劍
jieba.add_word(
"哀牢山三十六劍"
)print
("新增新詞以後的分詞結果為：    "
+'/'
.join(jieba.cut(tmpstr)))
# 刪除詞哀牢山三十六劍
jieba.del_word(
"哀牢山三十六劍"
)print
("刪除詞語以後的分詞結果為：    "
+'/'
.join(jieba.cut(tmpstr)
))

執行結果為：

我/有/哀牢山/三十六/劍新增新詞以後的分詞結果為：我/有/哀牢山三十六劍刪除詞語以後的分詞結果為：我/有/哀牢山/三十六/劍

import jieba
tmpstr=
"我有哀牢山三十六劍"
dict
="data/金庸**詞庫.txt"
例如搜尋金庸
新列表=
[word for word in 源列表 if word not
in 停用詞列表]
newlist=
[w  for w in jieba.cut(tmpstr)
if w notin[
'和',
"郭靖和哀牢山三十六劍。"
tmpdf=pd.read_csv(
'data/停用詞.txt'
"郭靖和哀牢山三十六劍。"
ana.set_stop_words(
'data/停用詞.txt'
)wuxiao=jieba.lcut(tmpstr)
#讀入的停用詞列表對分詞結果無效
"郭靖和哀牢山三十六劍。"
import jieba.posseg as psg
tmpres = psg.cut(tmpstr)
print
(tmpres)
for item in tmpres:
print
(item.word,item.flag)
psg.lcut(tmpstr)
psg.lcut(tmpstr)[1
]psg.lcut(tmpstr)[1
].word
輸出結果：
>
郭靖 x
和 c哀牢山三十六劍 x
。 x'和'
				jieba 利用jieba分詞
目錄 三種分詞模式 新增自定義詞典進行分詞 jieba提供了三種分詞模式，分別是全模式，精確模式和搜尋引擎模式。全模式下會將所有可能的詞語都進行分詞，精確模式下會盡可能的將句子精確切開，搜尋引擎模式實在精確模式的基礎上，對長詞再進行劃分，提高分詞的召回率。使用cut和cut for search即可...
				jieba分詞原理
關於jieba分詞的原理，在平時做文字方面的演算法時沒有仔細研究過，昨晚在網上看了一篇部落格，寫的很全面很詳細，其中有些深入的部分還並沒有完全看懂。jieba分詞系統介紹 涉及演算法 基於字首詞典實現詞圖掃瞄，生成句子中漢字所有可能成詞情況所構成的有向無環圖 dag 採用動態規劃查詢最大概率路徑，找...
				Jieba分詞簡介
jieba分詞官網 jieba提供了三種分詞模式 精確模式，試圖將句子最精確地切開，適合文字分析 全模式，把句子中所有的可以成詞的詞語都掃瞄出來,速度非常快，但是不能解決歧義 搜尋引擎模式，在精確模式的基礎上，對長詞再次切分，提高召回率，適合用於搜尋引擎分詞。import jieba sent 用刀...

jieba分詞基本操作

jieba 利用jieba分詞

jieba分詞原理

Jieba分詞簡介

相關推薦