tar zxvf mmseg-3.1.tar.gz
cd mmseg-3.1
./configure --prefix=/usr/local/mmseg
make
make install
cd ../
yum install -y python python-devel
tar zxvf csft-3.1.tar.gz
cd csft-3.1
./configure --prefix=/usr/local/coreseek --with-python --with-mysql --with-mmseg-includes=/usr/local/mmseg/include/mmseg --with-mmseg-libs=/usr/local/mmseg/lib/ --with-mysql-include=/usr/include/mysql --with-mysql-libs=/usr/lib/mysql
make
make install
安裝完後在/usr/local/coreseek 有三個目錄,bin,etc和var。
建立dict目錄
mkdir /usr/local/coreseek/dict/
產生字典
cd /root/soft/mmseg-3.1/data
/usr/local/mmseg/bin/mmseg -u unigram.txt
產生了unigram.txt.uni,移到相應目錄。
cp unigram.txt.uni /usr/local/coreseek/dict/uni.lib
建立 /usr/local/coreseek/dict/mmseg.ini 內容:
[mmseg]
merge_number_and_ascii=1;
number_and_ascii_joint=-;
compress_space=0;
seperate_number_ascii=1;
#merge_number_and_ascii: 字母和數字連續出現是非切分
#number_and_ascii_joint:連線數字和字母可用的符號,如'-' '.' 等
#compress_space:暫時無效
#seperate_number_ascii:是否拆分數字,如 1988 -> 1/x 9/x 8/x 8/x
安裝完成。
配置檔案*.conf參考csft.conf
CoreSeek學習筆記
coreseek 是乙個基於sql的全文檢索引擎,那麼我們就要理解什麼是全文檢索引擎,那麼要理解全文檢索引擎,就要理解全文索引。是先定義乙個詞庫,然後在文章中查詢每個詞條 term 出現的頻率和位置,把這樣的頻率和位置資訊按照詞庫的順序歸納,這樣就相當於對檔案建立了乙個以詞庫為目錄的索引,這樣查詢某...
Lamp環境下安裝及使用coreseek
開啟linux首先安裝如下依賴包 如果有的話只需要更新 yum y install m4 autoconf automake libtool yum y install gcc gcc c wget yum y install mysql devel執行如下命令 tar xzvf coreseek ...
coreseek 中文分詞 and sphinx
1,解壓coreseek 3.2.14.tar.gz 原始碼包 解壓生成三個檔案包 csft mmseq 中文分詞 testpack pdp pyson 鏈結sphinx或者使用的api檔案 tar xzf coreseek 3.2.14.tar.gz2,進入mmseg所在的資料夾,編譯安裝中文分詞...