要在中文的專案中使用 solr ,少不了要整合中文分詞元件。本篇以 ik2012 分詞為例,講解如何在 solr 3.5 中及整合中文分詞,使用 ik 的原因 ik 比其他中文分詞維護的勤快,和 solr 整合也相對容易。
<
fieldtype
name
=
"text_zh"
class
=
"solr.textfield"
positionincrementgap
=
"100"
>
<
analyzer
type
=
"index"
>
<
tokenizer
class
=
"org.wltea.analyzer.solr.iktokenize***ctory"
usesmart
=
"false"
/>
<
analyzer
type
=
"query"
>
<
tokenizer
class
=
"org.wltea.analyzer.solr.iktokenize***ctory"
usesmart
=
"false"
/>
然後在 fields 節點下引用 text_zh 這一字段型別,如下所示:
<
field
name
=
"title"
type
=
"text_zh"
indexed
=
"true"
stored
=
"true"
/>
這樣標題欄位就支援中文分詞了。
solr配置中文分詞器
可能需要連線上篇 solr與tomcat整合 將data裡的.dic檔案拷貝到dic目錄 3.修改schema.xml檔案,增加下面 注意你需要修改的是dicpath引數 fieldtype name textcomplex class solr.textfield analyzer tokeniz...
solr配置中文分詞器
一 smartcn 自 1 將自帶的jar包拷貝到tomcat下 檔案 solr 5.1.0 contrib analysis extras lucene libs lucene analyzers smartcn 5.1.0.jar 2 修改schema.xml,新增 3 測試 二 mmseg4j...
solr配置中文分詞器
在 opt solr 7.7.1 server solr article core conf資料夾下的 managed schema檔案中配置ik中文分詞器 測試分詞效果 配置停用詞 擴充套件詞 同義詞 停止詞 的功能是過濾,把 啊 加入到停止詞的字典裡,比如搜尋 你好啊 solr會過濾掉 啊 以 ...