import jieba
msg =
'安徽省長江流域!'
seg_list = jieba.cut(msg, cut_all=
true
)print
('全模式:'
,'/ '
.join(seg_list)
) seg_list = jieba.cut(msg, cut_all=
false
)print
('精確模式:'
,'/ '
.join(seg_list)
) seg_list = jieba.cut(msg)
print
('預設精確模式:'
,'/ '
.join(seg_list)
)seg_list = jieba.cut_for_search(msg)
print
('搜尋引擎模式'
,'/ '
.join(seg_list)
)
輸出結果
全模式: 安徽/ 安徽省/ 省長/ 長江/ 長江流域/ 江流/ 流域/ /
精確模式: 安徽省/ 長江流域/ !
預設精確模式: 安徽省/ 長江流域/ !
搜尋引擎模式 安徽/ 安徽省/ 長江/ 江流/ 流域/ 長江流域/ !
#詞性標準
#詞性標準
import jieba.posseg as psg
sent =
'中文分詞是文字處理不可或缺的一步,沒有比jieba更好的中文分詞工具了!'
seg_list = psg.cut(sent)
# seg_list是generator型別
# generator是乙個函式,返回乙個物件(迭代器),可以對其進行迭代
print
(seg_list)
result =
" ".join(
["/\n"
.format
(word, flag)
for word, flag in seg_list]
)print
(result)
輸出
中文/nz
分詞/n
是/v文字處理/n
不可或缺/l
的/uj
一步/m
,/x沒有/v
比/pjieba/eng
更好/d
的/uj
中文/nz
分詞/n
工具/n
了/ul
!/x
說明:
v 動詞
a 形容詞
w 標點符號
u 助詞
r 代詞
w 標點符號
d 副詞
import jieba
#載入系統詞典
# 每一行分三部分:詞語、詞頻(可省略)、詞性(可省略),用空格隔開,順序不可顛倒
jieba.set_dictionary(
'./data/dict.txt.big'
)sent =
'jieba分詞非常好用,可以自定義金融詞典!'
seg_list = jieba.cut(sent)
# str.join(sequence),將序列中的元素以指定的字元連線生成乙個新的字串
print
('只載入系統詞典:'
,'/ '
.join(seg_list)
)jieba.load_userdict(
'./data/user_dict.utf8'
)seg_list = jieba.cut(sent)
print
('載入自定義詞典後:'
,'/ '
.join(seg_list)
)
執行結果
只載入系統詞典: jieba/ 分詞/ 非常/ 好用/ ,/ 可以/ 自定義/ 金融/ 詞典/ !
載入自定義詞典後: jieba分詞/ 非常/ 好用/ ,/ 可以/ 自定義/ 金融詞典/ !
jieba中文處理
一 前言 和拉丁語系不同,亞洲語言是不用空格分開每個有意義的詞的。而當我們進行自然語言處理的時候,大部分情況下,詞彙是我們對句子和文章理解的基礎,因此需要乙個工具去把完整的文字中分解成粒度更細的詞。jieba就是這樣乙個非常好用的中文工具,是以分詞起家的,但是功能比分詞要強大很多。二 基本分詞函式與...
中文分詞 jieba
支援繁體分詞 支援自定義詞典 mit 授權協議 對 python 2 3 均相容 試圖將句子最精確地切開,適合文字分析 import jieba def main s u 我在人民廣場吃著炸雞 cut jieba.cut s print type cut for word in cut print ...
python中jieba分詞的簡單應用
話不多說,上來就貼 注意編碼問題 encoding utf 8 import jieba jieba.load userdict wangzhan.txt 儲存不需要切分的重要詞語 def creadstoplist stopwordspath stwlist line.strip for line...