mmseg4j 中文分詞 1 5 版發布

2021-08-29 22:06:29 字數 835 閱讀 7668

經過幾天的開發與除錯,新版的 mmseg4j 可以發布了。定為1.5版,是因為變動比較大。

mmseg4j 1.5變更:

[list]

[*][*]把chars.dic檔案放到jar裡, 我們不需要關心它,當然你在詞庫目錄放這個檔案可能覆蓋它。

[*]最長匹配遍歷調整(基本不受長詞的影響)

[*]優化了程式,除去沒有必要的陣列複製等,效能提公升40%

[*]ant 在jdk 1.5 下也可以編譯(上一版本用了collections二分查詢)

[/list]

說明:1、sogou 詞庫,不是用官方的檔案,因為官方的檔案有詞頻等資訊,載入比較慢。就把這些資訊去了,轉換了下,一行一詞,並且轉換為utf-8的檔案,目前sogou詞庫有15w多。

2、把上乙個版本的 chars.dic 檔案隱藏在jar裡,這個檔案我們基本不需要關心的。如果想自定義,可以修改並把它放到詞庫目錄中覆蓋預設的。

3、1.5版做了一些優化,mmseg4j-1.5 版的分詞速度******演算法是 1100kb/s左右、complex演算法是 700kb/s左右,(測試機:amd athlon 64 2800+ 1g記憶體 xp)。經測試是 complex 比ik, mik, je要快,沒 paoding快(900kb/s左右),******方式比paoding快。

4、其它:詞庫預設在./data目錄下的words.dic檔案,也可以指定其它目錄,如

analyzer analyzer = new complexanalyzer("./sogou");

5、solr中的使用方式沒變,請看:[url=中文分詞 mmseg4j[/url]。

solr整合mmseg4j實現中文分詞檢索

1 使用mmseg4j 1.9版本 mmseg4j core 1.9.0.jar 包括詞庫檔案 mmseg4j analysis 1.9.0.jar 是一些 analysis mmseg4j solr 1.9.0.jar 是一些 solr 使用的功能。2 將mmseg的jar放入solr web i...

solr安裝mmseg4j 分詞器

注意版本 2.拷貝jar 3.準備自定義詞庫 1.6版支援多個詞庫檔案,定義的目錄下讀到 words 字首且 dic 為字尾的檔案,如 f dic words mmseg4j.dic。新增自定義詞條,一條一行 注意,必須utf 8編碼格式 如下圖所示 4.配置schema.xml dicpath f...

solr4 5配置中文分詞器mmseg4j

solr4.x雖然提供了分詞器,但不太適合對中文的分詞,給大家推薦乙個中文分詞器mmseg4j 通過以下幾步就可以把mmseg4j分詞器整合到solr中 1 解壓mmseg4j 1.9.1.zip,把dist下面的所有jar檔案拷貝到你應用伺服器下的solr web inf lib中 如果你的應用伺...