CentOS 配置solr中文分詞器

2022-07-29 05:54:06 字數 1770 閱讀 5249

第一步:使用ik-analyzer

。把分析器的資料夾上傳到伺服器。

第二步:需要把分析器的jar包新增到

solr

工程中。

第三步:需要把ikanalyzer

需要的擴充套件詞典及停用詞詞典、配置檔案複製到

solr

工程的classpath

。注意:擴充套件詞典及停用詞詞典的字符集必須是utf-8

。不能使用

windows

記事本編輯。

第四步:配置fieldtype

。需要在

solrhome/solr/collection1/conf/schema.xml

中配置。

技巧:使用vi

、vim

跳轉到文件開頭

gg。跳轉到文件末尾:

業務字段判斷標準:

1、在搜尋時是否需要在此字段上進行搜尋。例如:商品名稱、商品的賣點、商品的描述

2、後續的業務是否需要用到此欄位。例如:商品id

重新啟動tomcat

以上就是配置好了分詞器。

執行solr是個很簡單的事,如何讓solr高效執行你的專案,這個就不容易了。

要考慮的因素太多。這裡很重要乙個就是對solr的配置要了解。懂得配置檔案每個配置項的含義,這樣操作起來就會如魚得水!

在solr裡面主要的就是solr的主目錄下面的schema.xml,solrconfig.xml。

solrconfig.xml,主要定義solr的處理程式(handler)和一些擴充套件程式;

schema.xml,主要定義索引的字段和字段型別。

接下來的工作就是在fields結點內定義具體的字段(類似資料庫中的字段),就是filed。

filed定義包括name,type(為之前定義過的各種fieldtype),indexed(是否被索引),stored(是否被儲存),multivalued(是否有多個值)等等。

例: field的定義相當重要,有幾個技巧需注意一下,對可能存在多值得字段盡量設定 multivalued屬性為true,避免建索引是丟擲錯誤;如果不需要儲存相應字段值,盡量將stored屬性設為false。

copyfield(複製字段)

建議建立了乙個拷貝字段,將所有的全文本段複製到乙個欄位中,以便進行統一的檢索: 

並在拷貝字段結點處完成拷貝設定:

注:「拷貝字段」就是查詢的時候不用再輸入:username:張三 and userprofile:張三的個人簡介。

直接可以輸入"張三"就可以將「名字」含「張三」或者「簡介」中含「張三」的又或者「名字」和「簡介」都含有「張三」的查詢出來。

他將需要查詢的內容放在了乙個欄位中,並且預設查詢該欄位設為該字段就行了。

維護sorl索引教程

solr 配置中文分詞

要在中文的專案中使用 solr 少不了要整合中文分詞元件。本篇以 ik2012 分詞為例,講解如何在 solr 3.5 中及整合中文分詞,使用 ik 的原因 ik 比其他中文分詞維護的勤快,和 solr 整合也相對容易。fieldtypename text zh class solr.textfie...

solr配置中文分詞器

可能需要連線上篇 solr與tomcat整合 將data裡的.dic檔案拷貝到dic目錄 3.修改schema.xml檔案,增加下面 注意你需要修改的是dicpath引數 fieldtype name textcomplex class solr.textfield analyzer tokeniz...

solr配置中文分詞器

一 smartcn 自 1 將自帶的jar包拷貝到tomcat下 檔案 solr 5.1.0 contrib analysis extras lucene libs lucene analyzers smartcn 5.1.0.jar 2 修改schema.xml,新增 3 測試 二 mmseg4j...