結巴jieba分詞器的各種用法

2021-10-08 08:37:40 字數 2749 閱讀 4072

import jieba

jieba.__version__

# 預設模式就是精確模式 

# 預設引數(sentence, cut_all=false, hmm=true, use_paddle=false)

seg_list = jieba.cut("我來到北京清華大學")

print(list(seg_list))

# 全模式

seg_list = jieba.cut("我來到北京清華大學", cut_all=true)

print(list(seg_list))

# 搜尋引擎模式

seg_list = jieba.cut_for_search("我來到北京清華大學")

print(list(seg_list))

# 啟動paddle模式。 0.40版之後開始支援

jieba.enable_paddle()

strs = ["我來到北京清華大學",

"桌球拍賣完了",

"中國科學技術大學"]

臨時增加字詞

jieba.add_word('石墨烯')

jieba.add_word('凱特琳')

刪除字詞

jieba.del_word('石墨烯')

jieba.del_word('凱特琳')

新增某個路徑下的字典檔案

import sys

jieba.load_userdict("userdict.txt")

其中檔案內容格式:

雲計算 5

李小福 2 nr

創新辦 3 i

八一雙鹿 3 nz

調節單詞的詞頻來按照意願分割

# 可調節單個詞語的詞頻, 

# '中將' ==> '中', '將'

jieba.suggest_freq(('中', '將'), tune=true)

# '臺', '中'==> '臺中'

jieba.suggest_freq('臺中', true)

tfidf選擇關鍵字, 還可以指定詞性  不是特別準確

import jieba.analyse

jieba.analyse.extract_tags("我,愛,中國,共產黨", topk=3, allowpos=('n', 'v'))

指定idf檔案路徑

# 自定義語料庫的路徑 是所有字詞的 idf值

jieba.analyse.set_idf_path("../extra_dict/idf.txt.big");

# 選擇關鍵字

tags = jieba.analyse.extract_tags(content, topk=5)

該idf.txt.big檔案內容格式

勞動防護 13.900677652

勞動防護 13.900677652

生化學 13.900677652

倒車檔 12.2912397395

textrank提取關鍵字

import jieba.analyse

s = "此外,公司擬對全資子公司吉林歐亞置業****增資4.3億元,\

增資後,吉林歐亞置業註冊資本由7000萬元增加到5億元。"

for x, w in jieba.analyse.textrank(s, withweight=true):

print('%s %s' % (x, w))

結果:

歐亞 1.0

吉林 0.9921208535138604

置業 0.9165645621092878

增資 0.7680698074188868

子公司 0.6570209103194244

...

詞性

import jieba.posseg as pseg

test_sent = "臺中正確應該不會被切開。mac上可分出石墨烯。"

result = pseg.cut(test_sent)

for w in result:

print(w.word, "\t", w.flag)

結果

臺 	 q

中正 nz

確應 v

該 r

不 d

會 v

...

結巴分詞器

結巴分詞 coding utf 8 import sys import os import jieba sent 天善智慧型是乙個專注於商業智慧型bi 資料分析 資料探勘和大資料技術領域的技術社群 www.hellobi.com 內容從最初的商業智慧型 bi 領域也擴充到了資料分析 資料探勘和大資料...

NLTK的分詞器

最近在做nlp的任務,經常會用到分詞。有個問題 nltk的word tokenizer和直接使用split 感覺效果是類似的,而且還會出現can t這類的詞被word tokenizer切分成ca n t。這樣看來,以後分詞就直接使用split 更加高效和正確麼?2021自己更新 現有分詞工具 1....

Elasticsearch ik分詞器的配置和使用

2.解壓包解壓出來乙個名為elasticsearch的資料夾如下圖 3.將 elasticsearch 資料夾重新命名為ik 4.將ik資料夾放入 elasticsearch目錄的plugins資料夾下即可 如下圖所示 5.在瀏覽器輸入 text 我是程式設計師 ik分詞器貼合中文 列如 我是程式設...