linux如何安裝senna
通過以下命令安裝# rpm -ivh mecab-0.97-tritonn.1.0.12.i386.rpm# rpm -ivh mecab-ipadic-2.7.0.20070801-tritonn.1.0.12.i386.rpm
# rpm -ivh
senna-1.1.4-tritonn.1.0.12.i386.rpm
# rpm -ivh mysql-*
安裝後測試senna是否正常安裝
# mysql -u root testmysql> create table t1 (c1 text, fulltext index ft using ngram (c1)) engine = myisam default charset utf8;
query ok, 0 rows affected (0.02 sec)
mysql> show senna status\g
mysql> insert into t1 values ("中文文字內容測試,看是否能夠搜尋出來");query ok, 1 row affected (0.03 sec)
mysql> insert into t1 values ("中文");
query ok, 1 row affected (0.00 sec)
mysql> select * from t1 where match(c1) against("中文");
注意:senna目前全文搜尋只支援日文和英文,對中文支援暫時沒有。
搜尋引擎 索引
正排索引 文件編號,單詞編號,單詞的數量,單詞出現的位置。倒排索引 1,單詞詞典,儲存單詞以及統計資訊,單詞在記錄表中的便宜,可常駐記憶體,用雜湊表儲存。2,記錄表,單詞對應的文件集合,記錄單詞出現的數目 位置。文件採用差分變長編碼。其中文件可按編號公升序排列 可利用差分編碼 也可按出現次數排列,可...
MySQL搜尋引擎程式 mysql搜尋引擎
mysql是我們比較常用的一種資料庫軟體。它有著諸多的優點,如開源的,免費的等等。其實它還有乙個很好的特點,那就是有多種引擎可以供你選擇。如果賽車手能根據不同的路況,地形隨手更換與之最適宜的引擎,那麼他們將創造奇蹟。然而目前他們還做不到那樣便捷的更換引擎,但是我們卻可以 所謂知己知彼方可百戰不殆,要...
搜尋引擎 倒排索引
本節通過引入簡單例項,介紹與搜尋引擎索引有關的一些基礎概念,了解這些基礎概念對於後續深入了解索引的工作機制非常重要。3.1.1單詞 文件矩陣 單詞 文件矩陣是表達兩者之間所具有的一種包含關係的概念模型,圖3 1展示了其含義。圖3 1的每列代表乙個文件,每行代表乙個單詞,打對勾的位置代表包含關係。圖3...