1、首先安裝並能夠執行solr服務,如果沒有,請參考solr學習之-solr安裝。
2、solr會預設一些中文分詞器,但對分詞支援的不好,比如輸入:我們在北京清華大學附近工作,分出來的都是單個的字(如圖),所以我們需要乙個專業元件進行分詞處理。
現在的分詞元件主要有
mmseg4j、ikanalyzer,都比較好用,我們這裡選用
3、lib包配置
解壓檔案
4、對配置檔案的修改
修改配置檔案d:\service\solr\solrhome\collection1\conf 下的schema.xml,注意:d:\service\solr\solrhome\collection1並不是固定的,根據自己實際的配置環境。
新增下面的兩段**:
1)fieldtype:
2)與fieldtype對應的field:
5、完成校驗
配置完成後重新啟動tomcat服務。如果配置成功,則在
analyse fieldname / fieldtype下面多了三個選項mmseg4j_complex_name、mmseg4j_maxword_name、mmseg4j_******_name。如圖,說明配置成功。
再看一下mmseg4j的分詞效果。
中文分詞元件
cmd執行命令 mecab d mecab chinesedic binary wakati wiki.zh.text.jian o wiki.zh.text.jian.seg b 10000000 其中,wiki.zh.text.jian是乙個中文資料集,wiki.zh.text.jian.seg...
scws中文分詞元件
使用類方法分詞 so scws new so set charset gbk 這裡沒有呼叫 set dict 和 set rule 系統會自動試呼叫 ini 中指定路徑下的詞典和規則檔案 so send text 我是乙個中國人,我會c 語言,我也有很多t恤衣服 while tmp so get r...
Lucene中文分詞元件 JE Analysis
採用正向最大匹配的中文分詞演算法,相當於分詞粒度等於0 mmanalyzer analyzer new mmanalyzer 引數為分詞粒度 當字數等於或超過該引數,且能成詞,該詞就被切分出來 mmanalyzer analyzer new mmanalyzer int wordlength 字串切...