NLP 二 中文處理jieba模組

2021-08-14 10:52:50 字數 2798 閱讀 5735

#jieba模組

中文沒有空格

jieba.cut方法接受三個引數的:

》需要分詞的字串

》cut_all引數用來控制是否採用全模式

》hmm引數用來控制是否使用hmm模型

jieba.cut_for_search方法接受兩個引數

》需要分詞的字串

》是否使用hmm模型

import jieba

text = '我來到北京清華大學'

default_mode =jieba.cut(text)

full_mode = jieba.cut(text,cut_all=true)

search_mode = jieba.cut_for_search(text)

print "精確模式:","/".join(default_mode)

print "全模式:","/".join(full_mode)

print "搜尋引擎模式:","/".join(search_mode)

精確模式: 我/來到/北京/清華大學

全模式: 我/來到/北京/清華/清華大學/華大/大學

搜尋引擎模式: 我/來到/北京/清華/華大/大學/清華大學

載入詞典 如

創新辦 3 i

雲計算 5

凱特琳 nz

臺中機器學習 3

調整詞典
var posseg = new possegmenter();

var s = "一團碩大無朋的高能離子雲,在遙遠而神秘的太空中迅疾地飄移"

;var tokens = posseg.cut(s);

console.writeline(string.join("

", tokens.select(token => string.format("/"

, token.word, token.flag))));

一團/m 碩大無朋/i 的/uj 高能/n 離子/n 雲/ns ,/x 在/p 遙遠/a 而/c 神秘/a 的/uj 太空/n 中/f 迅疾/z 地/uv 飄移/v
var segmenter = new jiebasegmenter();

var s = "永和服裝飾品****"

;var tokens = segmenter.tokenize(s);

foreach (var token in tokens)

start: end: "

, token.word, token.startindex, token.endindex);

}

word 永和           start: 0   end: 2

word 服裝 start: 2 end: 4

word 飾品 start: 4 end: 6

word **** start: 6 end: 10

var segmenter = new jiebasegmenter();

var s = "永和服裝飾品****"

;var tokens = segmenter.tokenize(s, tokenizermode.search);

foreach (var token in tokens)

start: end: "

, token.word, token.startindex, token.endindex);

}

word 永和           start: 0   end: 2

word 服裝 start: 2 end: 4

word 飾品 start: 4 end: 6

word 有限 start: 6 end: 8

word 公司 start: 8 end: 10

word **** start: 6 end: 10

jiebaforlucenenet專案提供了與lucene.net的簡單整合,更多資訊請看:jiebaforlucenenet

jieba分詞亦提供了其它的詞典檔案:

segmenter.cli專案build之後得到jiebanet.ext,它的選項和例項用法如下:

-f       --file          the file name, (必要的).

-d --delimiter the delimiter between tokens, default: / .

-a --cut-all use cut_all mode.

-n --no-hmm don't use hmm.

-p --pos enable pos tagging.

-v --version show version info.

-h --help show help details.

sample usages:

$ jiebanet -f input.txt > output.txt

$ jiebanet -d | -f input.txt > output.txt

$ jiebanet -p -f input.txt > output.txt

SolrCloud學習(二)中文分詞

中文分詞 solrcloud自身也支援中文分詞,根據系統需求,我這裡使用了ikanalyzer分詞器。支援solr的ikanalyzer版本是ikanalyzer2012ff u1。第一步 新增ikanalyzer的jar包至lib環境,操作如下 cp ikanalyzer2012ff u1.jar...

2023年中文NLP頂級預訓練模組

對於bert後時代,不得不說強有力的預訓練模型是刷榜 出色完成任務的基礎,現在列舉幾個對此很有幫助的資源,同大家一起進步!一 網際網路新聞情感分析複賽top8 8 2745 解決方案及總結 大佬的這篇知乎部落格總結的非常好,開啟了另一塊天地,同學們可以深挖這裡面的內容 二 ccf bdci 2019...

NLP筆記1 中文分詞(資料預處理篇)

如何實現準確並且迅速的中文分詞一直是自然語言處理領域研究中的基礎。這三類分詞技術代表了當前中文分詞的發展方向,它們有著各自的優缺點。基於字串匹配的分詞是通過構建乙個固定的詞表,對照這個詞表,對輸入的問句進行字串擷取和字串匹配。主要原理是將問句從頭開始不斷切割成若干個子字串,當所有的子字串都能夠與詞表...