八 使用IKAnalyzer自定義分詞字典

2021-07-04 00:03:33 字數 1500 閱讀 4124

這裡我使用的是ik analyzer 2012ff_hf1.zip

這個包;因為我用的是solr4.x的;

解壓、檔案拷貝

解壓之後講ikanalyzer的jar包拷貝到$solr_home的lib目錄下;將ikanalyzer.conf.xml和stopword.dic放到classes目錄下,我這裡的classes目錄是

[plain]view plain

copy

重點檔案說明

* ikanalyzer.conf.xml主要的作用是用於自定義分詞字典以及停止詞字典的指定;

* stopword.dic是預設自帶的停止詞,你可以新增自己的停止詞到這個檔案中;

配置

這裡我們只講ikanalyzer的分詞器配置。其實分詞器的配置大同小異,ikanalyzer具體配置如下;

[plain]view plain

copy

或者是  

如果是其他的分詞器;也是類似,將class修改為對應的分詞處理器類就ok;

配置完fieldtype之後,我們將要使用到分詞器的field的type屬性修改為我們新新增fieldtype;

[plain]view plain

copy

這樣重啟之後,分詞器就生效了!來看下效果

自定義分詞字典

接下來講下自定義分詞字典,前面我們在重點檔案說明中以及提到了ikanalyzer.cfg.xml的作用;先來看下這個檔案的內容

[plain]view plain

copy

hadoop@nutch4:/data/projects/clusters/ikanalyzer$ more ikanalyzer.cfg.xml   

<?xml  version="1.0" encoding="utf-8"?>  

ik analyzer 擴充套件配置

stopword.dic;

配置一目了然,很簡單;

我們在ikanalyzer.cfg.xml的同級目錄下新增乙個ext.dic的檔案,檔案內新增自己的分詞字典,重啟就可以了!

看下我們的自定義分詞字典ext.dic

[plain]view plain

copy

天天跑酷  

天天愛消除  

天天  

這裡比較簡單,我只新增了三個自定義分詞,那麼來看下效果把!

大家可以看到效果還不錯。呵呵!

IKAnalyzer如何自定義遠端詞庫

ikanalyzer1.3.4要自定義我們自己的詞庫,而且我們可以隨時新增分詞,網上查了一圈沒有相關資料,看來只有自己搞定了。這裡大家需要熟悉http協議中的last modified etags這些概念,這樣能更容易理解ikanalyzer作者的設計思路。觀察了下ikanalyzer分詞器的配置檔...

IKAnalyzer 自定義分詞器

lucene 全文搜尋框架,具體的定義在這裡就不過多的介紹。那麼主要講一下,利用第三方分詞器自定義我們的分成規則,ikanalyzer 庖丁分詞器就是乙個很好的中文分詞器。首先匯入對應的jar包,我們都很清楚,配置檔案是一種有效擴充套件的一種方式,那麼ikanalyzer也不例外。1.首先建立乙個專...

IKAnalyzer如何自定義遠端詞庫

ikanalyzer1.3.4要自定義我們自己的詞庫,而且我們可以隨時新增分詞,網上查了一圈沒有相關資料,看來只有自己搞定了。這裡大家需要熟悉http協議中的last modified etags這些概念,這樣能更容易理解ikanalyzer作者的設計思路。觀察了下ikanalyzer分詞器的配置檔...