因時間緊張,現將全文檢索類庫外包,需求如下,有意者可詳細溝通。
全文檢索類庫需求說明
作業系統環境:
windows 2003 + iis 6
ide開發環境:
vs 2008 + c# 3.5 + lucene.net (或者其他)
技術要求:
符合高併發需求,可滿足同時300以上個搜尋的請求(記憶體,io,通訊傳輸量)。
讀寫分離策略(可以採用佇列 + 定時器的模式更新索引)
更新策略,與上面相同,可以有一天的延遲。
中英文分詞
避免大量的 io,可以採取適當的快取技術,**有分布式快取,最好乙個檔案塊每天只發起一次 io。
排序策略:排序策略有多種因子,排序因子可調
按相關性搜尋排序之後,還會有對站內積分規則的二次排序過濾。
搜尋策略,可拓展搜尋介面。
避免記憶體洩露問題
需求說明:
全文檢索只需要提供相應的介面和策略,操作到指定的檔案塊即可。
全文檢索共分為三塊業務:
產品的搜尋,帶有商戶和產品的排序策略,產品的顯示和搜尋都從全文庫發起。
幫助的搜尋,英文幫助和中文幫助的搜尋,這兩塊部分都不是很大,可以直接快取。
中文,英文分詞
索引庫在單獨的伺服器,多個 web 伺服器對索引庫伺服器請求搜尋,伺服器在乙個區域網內,光纖網絡卡連線。
Oracle資料庫建某字段全文全文檢索
一 建表 create table myindextest tid varchar2 50 primary key,btext blob 二 建索引及引數 1 中文分詞及分詞屬性設定 begin ctx ddl.create preference cnlex chinese lexer ctx dd...
python的全文檢索庫Whoosh使用示例
pip install whoosh首先,我有乙個xiaoshuo資料夾,裝了幾部 直接上 首先是建立索引的檔案 from whoosh.filedb.filestore import filestorage from whoosh.fields import from jieba.analyse ...
全文檢索知識庫系統方案 一
題記 前段時間做了乙個全文檢索的知識庫系統構建方案的調研,在此分享。調研方案範圍 調研目的在於找到乙個在功能和效能上都比較優秀的全文檢索的知識庫系統實現方案 在調研過程中優先考慮如何實現全文字檢索功能,結合考慮系統的功能 效能 以及構建完整系統的效率。構建全文檢索的知識庫系統有多種行之有效的方案,主...