solr
預設是不支援中文分詞的,這樣就需要我們手工配置中文分詞器,在這裡我們選用
ik analyzer
中文分詞器。
ik analyzer
如圖:
solr
,在這裡我們使用
solr 4.10.4
版本試驗環境
centos 6.5
,jdk1.7
整合步驟
1ik analyzer_2012_ff_hf1.zip
壓縮包,把
ikanalyzer2012ff_u1.jar
拷貝到目錄下2:在
目錄下建立目錄
classes
,然後把
ikanalyzer.cfg.xml
和stopword.dic
拷貝到新建立的
classes
目錄下即可。
3:修改
solr core
的schema
檔案,預設是
solr-4.10.4/example/solr/collection1/conf/schema.xml,
新增如下配置
4:啟動
solr
,bin/solr start
5:進入
solr web
介面http://localhost:8983/solr,
看到下圖操作結果即為配置成功
到現在為止,
solr
就和ik analyzer
中文分詞器整合成功了。
但是,如果我想自定義一些詞庫,讓
ik分詞器可以識別,那麼就需要自定義擴充套件詞庫了。
操作步驟:
1:修改
目錄下的
ikanalyzer.cfg.xml
配置檔案,配置如下
<?xml version="1.0" encoding="utf-8"?>
ik analyzer 擴充套件配置
ext.dic;
stopword.dic;
注意字典的格式,是一行寫乙個詞
2:新建
ext.dic
檔案(擴充套件字典
),在裡面新增如下內容
(注意:
ext.dic
的編碼必須是
encode in utf-8 without bom,
否則自定義的詞庫不會被識別)
超人學院
3:新建stopword.dic(
擴充套件停止詞字典,即以該詞為分界線分詞
),在裡面新增 中國
中華人民
:重啟solr4:在
solr web
介面進行如下操作,看到圖中操作結果即為配置成功。
solr 配置中文分詞
要在中文的專案中使用 solr 少不了要整合中文分詞元件。本篇以 ik2012 分詞為例,講解如何在 solr 3.5 中及整合中文分詞,使用 ik 的原因 ik 比其他中文分詞維護的勤快,和 solr 整合也相對容易。fieldtypename text zh class solr.textfie...
安裝solr中文分詞系統
solr是乙個國外的開源專案,要想solr能處理中文,必須安裝中文分詞系統,步驟如下 3.拷貝mmseg4j的jar包到solr目錄裡 4.增加詞庫 mkdir p opt solr tomcat solr dic unzip data.zip cp data dic opt solr tomcat...
solr配置中文分詞器
可能需要連線上篇 solr與tomcat整合 將data裡的.dic檔案拷貝到dic目錄 3.修改schema.xml檔案,增加下面 注意你需要修改的是dicpath引數 fieldtype name textcomplex class solr.textfield analyzer tokeniz...