import jieba
jieba.__version__
# 預設模式就是精確模式
# 預設引數(sentence, cut_all=false, hmm=true, use_paddle=false)
seg_list = jieba.cut("我來到北京清華大學")
print(list(seg_list))
# 全模式
seg_list = jieba.cut("我來到北京清華大學", cut_all=true)
print(list(seg_list))
# 搜尋引擎模式
seg_list = jieba.cut_for_search("我來到北京清華大學")
print(list(seg_list))
# 啟動paddle模式。 0.40版之後開始支援
jieba.enable_paddle()
strs = ["我來到北京清華大學",
"桌球拍賣完了",
"中國科學技術大學"]
臨時增加字詞
jieba.add_word('石墨烯')
jieba.add_word('凱特琳')
刪除字詞
jieba.del_word('石墨烯')
jieba.del_word('凱特琳')
新增某個路徑下的字典檔案
import sys
jieba.load_userdict("userdict.txt")
其中檔案內容格式:
雲計算 5
李小福 2 nr
創新辦 3 i
八一雙鹿 3 nz
調節單詞的詞頻來按照意願分割
# 可調節單個詞語的詞頻,
# '中將' ==> '中', '將'
jieba.suggest_freq(('中', '將'), tune=true)
# '臺', '中'==> '臺中'
jieba.suggest_freq('臺中', true)
tfidf選擇關鍵字, 還可以指定詞性 不是特別準確
import jieba.analyse
jieba.analyse.extract_tags("我,愛,中國,共產黨", topk=3, allowpos=('n', 'v'))
指定idf檔案路徑
# 自定義語料庫的路徑 是所有字詞的 idf值
jieba.analyse.set_idf_path("../extra_dict/idf.txt.big");
# 選擇關鍵字
tags = jieba.analyse.extract_tags(content, topk=5)
該idf.txt.big檔案內容格式
勞動防護 13.900677652
勞動防護 13.900677652
生化學 13.900677652
倒車檔 12.2912397395
textrank提取關鍵字
import jieba.analyse
s = "此外,公司擬對全資子公司吉林歐亞置業****增資4.3億元,\
增資後,吉林歐亞置業註冊資本由7000萬元增加到5億元。"
for x, w in jieba.analyse.textrank(s, withweight=true):
print('%s %s' % (x, w))
結果:
歐亞 1.0
吉林 0.9921208535138604
置業 0.9165645621092878
增資 0.7680698074188868
子公司 0.6570209103194244
...
詞性
import jieba.posseg as pseg
test_sent = "臺中正確應該不會被切開。mac上可分出石墨烯。"
result = pseg.cut(test_sent)
for w in result:
print(w.word, "\t", w.flag)
結果
臺 q
中正 nz
確應 v
該 r
不 d
會 v
...
結巴分詞器
結巴分詞 coding utf 8 import sys import os import jieba sent 天善智慧型是乙個專注於商業智慧型bi 資料分析 資料探勘和大資料技術領域的技術社群 www.hellobi.com 內容從最初的商業智慧型 bi 領域也擴充到了資料分析 資料探勘和大資料...
NLTK的分詞器
最近在做nlp的任務,經常會用到分詞。有個問題 nltk的word tokenizer和直接使用split 感覺效果是類似的,而且還會出現can t這類的詞被word tokenizer切分成ca n t。這樣看來,以後分詞就直接使用split 更加高效和正確麼?2021自己更新 現有分詞工具 1....
Elasticsearch ik分詞器的配置和使用
2.解壓包解壓出來乙個名為elasticsearch的資料夾如下圖 3.將 elasticsearch 資料夾重新命名為ik 4.將ik資料夾放入 elasticsearch目錄的plugins資料夾下即可 如下圖所示 5.在瀏覽器輸入 text 我是程式設計師 ik分詞器貼合中文 列如 我是程式設...