Go語言 中文分詞技術使用技巧(一)

2022-08-24 01:48:12 字數 1173 閱讀 6432

中文分詞(chinese word segmentation)指的是將乙個漢字序列(句子)切分成乙個乙個的單獨的詞,分詞就是將連續的字序列按照一定的規則重新組合成詞序列的過程。

現在分詞方法大致有三種:基於字串配置的分詞方法、基於理解的分詞方法和基於統計的分詞方法。

官方介紹

模式擴充套件

主要演算法

編碼實現

執行結果

time ./gojieba

萬里長城萬里長 全模式:萬里|萬里長城|里長|長城|萬里|里長

萬里長城萬里長 精確模式:萬里長城|萬里|長

新增新詞:萬里長

萬里長城萬里長 精確模式:萬里長城|萬里長

北京鮮花速遞 新詞識別:北京|鮮花|速遞

北京鮮花速遞 搜尋引擎模式: 北京|鮮花|速遞

北京市朝陽公園 詞性標註: 北京市/ns|朝陽/ns|公園/n

魯迅先生 搜尋引擎模式: 魯迅|先生

魯迅先生 tokenize search mode 搜尋引擎模式: [ ]

魯迅先生 tokenize default mode搜尋引擎模式: [ ]

魯迅先生 extract: [ ]

real 0m1.746s

user 0m1.622s

sys 0m0.124s

效能評測

語言原始碼

耗時c++版本

cppjieba

7.5 s

golang版本

gojieba

9.11 s

python版本

jieba

88.7 s

計算分詞過程的耗時,不包括載入詞典耗時,cppjieba效能是gojieba的1.2倍。cppjieba效能詳見jieba-performance-comparison,gojieba由於是c++開發的cppjieba,效能方面僅次於cppjieba,如果追求效能還是可以考慮的。

Go語言 中文分詞技術使用技巧(一)

分詞技術就是搜尋引擎中文分詞 chinese word segmentation 指的是將乙個漢字序列 句子 切分成乙個乙個的單獨的詞,分詞就是將連續的字序列按照一定的規則重新組合成詞序列的過程。現在分詞方法大致有三種 基於字串配置的分詞方法 基於理解的分詞方法和基於統計的分詞方法。官方介紹 模式擴...

Go語言中Context使用技巧

go的context是乙個設計非常精巧的介面,我們可以使用它非常方便進行上下文的值傳遞,同時也控制goroutine的生命週期。context提供了乙個withvalue函式,可將一對 key value 的值存放到context中 func testcontextwithvalue t testi...

go語言中strings的用法技巧

strings.hasprefix s string,prefix string bool 判斷字串s是否以prefix開頭 strings.hassuffix s string,suffix string bool 判斷字串s是否以suffix結尾。strings.index s string,s...