Go語言中文分詞技術使用技巧（一）

中文分詞（chinese word segmentation）指的是將乙個漢字序列（句子）切分成乙個乙個的單獨的詞，分詞就是將連續的字序列按照一定的規則重新組合成詞序列的過程。

現在分詞方法大致有三種：基於字串配置的分詞方法、基於理解的分詞方法和基於統計的分詞方法。

官方介紹

模式擴充套件

主要演算法

編碼實現

執行結果

time ./gojieba

萬里長城萬里長全模式：萬里|萬里長城|里長|長城|萬里|里長

萬里長城萬里長精確模式：萬里長城|萬里|長

新增新詞：萬里長

萬里長城萬里長精確模式：萬里長城|萬里長

北京鮮花速遞新詞識別：北京|鮮花|速遞

北京鮮花速遞搜尋引擎模式：北京|鮮花|速遞

北京市朝陽公園詞性標註：北京市/ns|朝陽/ns|公園/n

魯迅先生搜尋引擎模式：魯迅|先生

魯迅先生 tokenize search mode 搜尋引擎模式： [ ]

魯迅先生 tokenize default mode搜尋引擎模式： [ ]

魯迅先生 extract： [ ]

real 0m1.746s

user 0m1.622s

sys 0m0.124s

效能評測

語言原始碼

耗時c++版本

cppjieba

7.5 s

golang版本

gojieba

9.11 s

python版本

jieba

88.7 s

計算分詞過程的耗時，不包括載入詞典耗時，cppjieba效能是gojieba的1.2倍。cppjieba效能詳見jieba-performance-comparison，gojieba由於是c++開發的cppjieba，效能方面僅次於cppjieba，如果追求效能還是可以考慮的。

Go語言中文分詞技術使用技巧（一）

分詞技術就是搜尋引擎中文分詞 chinese word segmentation 指的是將乙個漢字序列句子切分成乙個乙個的單獨的詞，分詞就是將連續的字序列按照一定的規則重新組合成詞序列的過程。現在分詞方法大致有三種基於字串配置的分詞方法基於理解的分詞方法和基於統計的分詞方法。官方介紹模式擴...

Go語言中Context使用技巧

go的context是乙個設計非常精巧的介面，我們可以使用它非常方便進行上下文的值傳遞，同時也控制goroutine的生命週期。context提供了乙個withvalue函式，可將一對 key value 的值存放到context中 func testcontextwithvalue t testi...

go語言中strings的用法技巧

strings.hasprefix s string,prefix string bool 判斷字串s是否以prefix開頭 strings.hassuffix s string,suffix string bool 判斷字串s是否以suffix結尾。strings.index s string,s...

Go語言 中文分詞技術使用技巧（一）

Go語言 中文分詞技術使用技巧（一）

Go語言中Context使用技巧

go語言中strings的用法技巧

相關推薦

Go語言中文分詞技術使用技巧（一）

Go語言中文分詞技術使用技巧（一）