sphinx並不支援中文分詞, 也就不支援中文搜尋, coreseek = sphinx + mmseg(中文分詞演算法)
2).解壓後有三個資料夾
csft-3.2.14: sphinx
mmseg-3.2.14: 中文分詞元件
testpack: 介面開發包
2.安裝
1).先安裝mmseg, 因為coreseek會用到
cd mmseg-3.2.14./configure --prefix=/usr/local/mmseg
此時如果makefile檔案建立成功, 但是出現了乙個config.status: error: cannot find input file: src/makefile.in錯誤資訊, 使用以下命令重新編譯
aclocallibtoolize --force
automake --add-missing
autoconf
autoheader
make
clean
./configure --prefix=/usr/local/mmseg
執行安裝
make && makeinstall
2).安裝csft(即coreseek)
./configure --prefix=/usr/local/coreseek --with-mysql=/usr/local/mysql --with-mmseg=/usr/local/mmseg --with-mmseg-includes=/usr/local/mmseg/include/mmseg --with-mmseg-libs=/usr/local/mmseg/libmake && make
install
3.中文分詞演算法分類
1).基於字串匹配的分詞方法
基於字典, 進行挨個的詞條匹配
三個要素: 分詞詞典, 文字掃瞄順序, 匹配原則
掃瞄順序: 正向, 逆向, 雙向
匹配原則: 最大, 最小, 逐詞,最佳
2).基於理解的分詞方法, 正在測試階段
3).基於統計的分詞方法, 可以根據相鄰的字出現的次數和頻率等自動識別生詞, 自動消除歧義
4.配置coreseek
cp /usr/local/coreseek/etc/sphinx.conf.dist /usr/local/coreseek/etc/csft.conf #與sphinx不同的是配置檔名不同#接下來按照sphinx配置即可, 注意索引中的此兩處配置
#charset_type = zh_cn.utf-8
#charset_dictpath = /usr/local/mmseg/etc/
5.生成索引
cd /usr/local/coreseek/bin./indexer --all
6.查詢內容
cd /usr/local/coreseek/bin./search 隨永傑
coreseek 中文分詞 and sphinx
1,解壓coreseek 3.2.14.tar.gz 原始碼包 解壓生成三個檔案包 csft mmseq 中文分詞 testpack pdp pyson 鏈結sphinx或者使用的api檔案 tar xzf coreseek 3.2.14.tar.gz2,進入mmseg所在的資料夾,編譯安裝中文分詞...
中文分詞的方法
中文分詞主要有兩個類別 本別是基於字詞典分詞演算法和基於統計的機器學習演算法,下面依次介紹這兩種方法。也稱字串匹配分詞演算法。該演算法是按照一定的策略將待匹配的字串和乙個已建立好的 充分大的 詞典中的詞進行匹配,若找到某個詞條,則說明匹配成功,識別了該詞。常見的基於詞典的分詞演算法分為以下幾種 正向...
asp 的中文分詞
a程式設計客棧 日本是中國的乙個省 我們美麗中國的張家界!b 中國,我們,張家界,日本,美國,蘋果 b split b,a split a,for k 0 to ubound a s n fo程式設計客棧r i 0 to ubound b if instr a k b i 0 then s s in...