這裡我使用的是ik analyzer 2012ff_hf1.zip
這個包;因為我用的是solr4.x的;
解壓、檔案拷貝
解壓之後講ikanalyzer的jar包拷貝到$solr_home的lib目錄下;將ikanalyzer.conf.xml和stopword.dic放到classes目錄下,我這裡的classes目錄是
[plain]view plain
copy
重點檔案說明
* ikanalyzer.conf.xml主要的作用是用於自定義分詞字典以及停止詞字典的指定;
* stopword.dic是預設自帶的停止詞,你可以新增自己的停止詞到這個檔案中;
配置
這裡我們只講ikanalyzer的分詞器配置。其實分詞器的配置大同小異,ikanalyzer具體配置如下;
[plain]view plain
copy
或者是
如果是其他的分詞器;也是類似,將class修改為對應的分詞處理器類就ok;
配置完fieldtype之後,我們將要使用到分詞器的field的type屬性修改為我們新新增fieldtype;
[plain]view plain
copy
這樣重啟之後,分詞器就生效了!來看下效果
自定義分詞字典
接下來講下自定義分詞字典,前面我們在重點檔案說明中以及提到了ikanalyzer.cfg.xml的作用;先來看下這個檔案的內容
[plain]view plain
copy
hadoop@nutch4:/data/projects/clusters/ikanalyzer$ more ikanalyzer.cfg.xml
<?xml version="1.0" encoding="utf-8"?>
ik analyzer 擴充套件配置
stopword.dic;
配置一目了然,很簡單;
我們在ikanalyzer.cfg.xml的同級目錄下新增乙個ext.dic的檔案,檔案內新增自己的分詞字典,重啟就可以了!
看下我們的自定義分詞字典ext.dic
[plain]view plain
copy
天天跑酷
天天愛消除
天天
這裡比較簡單,我只新增了三個自定義分詞,那麼來看下效果把!
大家可以看到效果還不錯。呵呵!
IKAnalyzer如何自定義遠端詞庫
ikanalyzer1.3.4要自定義我們自己的詞庫,而且我們可以隨時新增分詞,網上查了一圈沒有相關資料,看來只有自己搞定了。這裡大家需要熟悉http協議中的last modified etags這些概念,這樣能更容易理解ikanalyzer作者的設計思路。觀察了下ikanalyzer分詞器的配置檔...
IKAnalyzer 自定義分詞器
lucene 全文搜尋框架,具體的定義在這裡就不過多的介紹。那麼主要講一下,利用第三方分詞器自定義我們的分成規則,ikanalyzer 庖丁分詞器就是乙個很好的中文分詞器。首先匯入對應的jar包,我們都很清楚,配置檔案是一種有效擴充套件的一種方式,那麼ikanalyzer也不例外。1.首先建立乙個專...
IKAnalyzer如何自定義遠端詞庫
ikanalyzer1.3.4要自定義我們自己的詞庫,而且我們可以隨時新增分詞,網上查了一圈沒有相關資料,看來只有自己搞定了。這裡大家需要熟悉http協議中的last modified etags這些概念,這樣能更容易理解ikanalyzer作者的設計思路。觀察了下ikanalyzer分詞器的配置檔...