source 資料來源名稱a
index 索引名稱a
中文分詞核心配置說明:
charset_dictpath=/usr/local/mmseg3/etc/
表示詞典檔案的目錄,該目錄下必須有uni.lib詞典檔案存在;
uni.lib詞典檔案的製作,請參mmseg詞典的構造
因為bsd/
linux預設安裝在/usr/local/mmseg3/etc下面,則使用/usr/local/mmseg3/etc/即可;
如果是在windows系統下,則為詞典所在的實際路徑,結尾必須使用/,例如:f:\coreseek-3.2.13-win32\etc/
測試時,如果出現unigram dictionary load error或者segmentation fault,一般為詞典路徑設定不正確。
charset_type=zh_cn.utf-8
表示啟用中文分詞功能;否則中文分詞功能無效,使用sphinx的其他處理模式。
啟用中文分詞功能後,需要source資料來源之中,讀取的資料編碼字符集為utf-8,否則無法正確處理;
如果是xml,則正確輸出為utf-8編碼格式即可;
如果是mysql,則設定讀取資料輸出字符集為utf-8即可:
mysql4.1起可以通過set names utf8設定輸出字符集為utf-8,即使原始資料為gbk也可;
mysql4.1以下版本,請解決gbk或者latin1輸出為utf-8問題;
#charset_table=......
ngram_len=0
表示取消原有的一元字元切分模式,不對中文分詞產生干擾;
charset_table的配置需要注釋掉!
ngram_len的配置需要設定為0!
配製檔案示例:
index threadsinfo
Coreseek 帶中文分詞的Sphinx
sphinx並不支援中文分詞,也就不支援中文搜尋,coreseek sphinx mmseg 中文分詞演算法 2 解壓後有三個資料夾 csft 3.2.14 sphinx mmseg 3.2.14 中文分詞元件 testpack 介面開發包 2.安裝 1 先安裝mmseg,因為coreseek會用到...
中文分詞 中文分詞及其應用
一 中文分詞原理 中文分詞是指將乙個漢字序列切分成乙個乙個單獨的詞。分詞就是將連續的字序列按照一定的規範重新組合成詞序列的過程。現有的分詞方法可分為三大類,分別是基於字串匹配的分詞方法 基於理解的分詞方法和基於統計的分詞方法。一 基於字串匹配的分詞方法 基於字串匹配的分詞方法又稱機械分詞方法,它是按...
中文分詞核心配置
coreseek 3.2.13相容sphinx 0.9.9的配置,可以不經修改,即可直接使用。不過,為了更好的針對中文進行檢索,則需要使用coreseek新增的配置引數,設定中文分詞。以下是中文分詞的核心配置,請仔細閱讀,應用到自己的配置之中 source 資料來源名稱a index 索引名稱a m...