#coding=utf-
8import jieba
import jieba.posseg as pseg # 詞性標註
import re
# jieba自定義詞典
# jieba.
load_userdict()
# 更改匹配規則,讓其識別字典中的空格
jieba.re_han_default = re.
compile
("(.+)"
, re.
u) #針對於預設模式
# jieba.re_han_cut_all = re.
compile
("(.+)"
, re.
u) #針對於全模式
jieba.
add_word
("王者榮耀"
)jieba.
add_word
("小公尺 note3"
)sentence =
"我用小公尺 note3打王者榮耀2019上海交通大學聯賽"
# 全模式
seg_list = jieba.
cut(sentence=sentence,cut_all=true)
print "[全模式]:"
,"/ "
.join
(seg_list)
# 精確模式,也是預設模式
seg_list2 = jieba.
cut(sentence=sentence,cut_all=false)
print "[精確模式]:"
,"/ "
.join
(seg_list2)
# 搜尋引擎模式
seg_list3 = jieba.
cut_for_search
(sentence=sentence)
print "[搜尋引擎模式模式]:"
,"/ "
.join
(seg_list3)
# hmm針對於字典以外的詞,jieba使用hmm模型來進行匹配
seg_list4 = jieba.
cut(
"他來到了網易杭研大廈"
,hmm
=false)
print "[未啟用hmm]:"
,"/"
.join
(seg_list4)
seg_list5 = jieba.
cut(
"他來到了網易杭研大廈"
,hmm
=true)
print "[未啟用hmm]:"
,"/"
.join
(seg_list5)
# 結巴還支援繁體字的分詞
# 關鍵字提取
# jieba提供了兩種關鍵字提取的方法,tf
-idf,textrant
# tf詞頻,idf逆檔案頻率,二者相乘
# 即是認為乙個詞語在一篇文章**現次數越多,同時在所有文件**現次數越少,越能夠代表該文章
sentence2 =
"我認為乙個詞語在一篇文章**現次數越多,同時在所有文件**現次數越少,越能夠代表該文章"
cv = jieba.analyse.
extract_tags
(sentence=sentence2,topk=
20,withweight=true)
for i in cv:
print i[0]
,"==>"
,i[1
]print "*"*20
cv2 = jieba.analyse.
textrank
(sentence=sentence2,topk=
20,withweight=true)
for i in cv2:
print i[0]
,"==>"
,i[1
]#自定義語料庫
# jieba.analyse.
set_stop_words
("stop_words.txt"
)# jieba.analyse.
set_idf_path
("idf.txt.big"
);
jieba 分詞使用入門
1.介紹 jieba 是目前最好的 python 中文分詞元件,它主要有以下 3 種特性 import jieba import jieba.posseg as pseg import jieba.analyse as anls 2.分詞 可使用jieba.cut和jieba.cut for sea...
jieba分詞學習總結
1 jieba.cut 引數1 需要分詞的字串 引數2 是否採用全模式,預設是精確模式 seg list jieba.cut 這是乙個測試 cut all false 可以用 join seg list 2 新增自定義詞典 jieba.load userdict filename filename為...
jieba分詞學習筆記(二)
jieba分詞有多種模式可供選擇。可選的模式包括 同時也提供了hmm模型的開關。其中全切分模式就是輸出乙個字串的所有分詞,精確模式是對句子的乙個概率最佳分詞,而搜尋引擎模式提供了精確模式的再分詞,將長詞再次拆分為短詞。效果大抵如下 encoding utf 8 import jieba seg li...