垂直搜尋技術
定向的網路爬蟲
網頁結構化資訊抽取技術或元資料採集技術
中文分詞,全文檢索
其他資訊處理技術
垂直搜尋引擎技術評估
全面性更新性
準確性功能性
站內搜尋實現方式
基於資料庫查詢
基於爬蟲抓取的站內搜尋
站內搜尋軟體系統
搜尋語法邏輯運算子
與(+,空格)
或(or,|)
非(-)
【神鵰俠侶 -電視劇集】:搜尋有關神鵰俠侶、不是電視劇集的內容
【** intitle:神鵰俠侶】:搜尋**、網頁標題是神鵰俠侶的內容
【神鵰俠侶 site:readnovel.com】:搜尋readnovel.com站內神鵰俠侶的內容
搜尋引擎開發經驗
一 查詢子系統 1 邏輯表示式 綜合的搜尋引擎通常支援邏輯與,邏輯或,邏輯非這三種操作.多個查詢詞的時候要進行邏輯操作,通常空格預設為 如果在多個查詢結果前進行預排序,那麼就可以把原來複雜的邏輯操作轉為有序集合的合併操作,時間複雜度僅為o m n b 網頁排序 網頁與文字的不同,是增加了meta元素...
搜尋引擎 索引
正排索引 文件編號,單詞編號,單詞的數量,單詞出現的位置。倒排索引 1,單詞詞典,儲存單詞以及統計資訊,單詞在記錄表中的便宜,可常駐記憶體,用雜湊表儲存。2,記錄表,單詞對應的文件集合,記錄單詞出現的數目 位置。文件採用差分變長編碼。其中文件可按編號公升序排列 可利用差分編碼 也可按出現次數排列,可...
搜尋引擎使用技巧
2.使用關鍵字搜尋 如果你不知道具體怎麼描述你所要搜尋的東西,那麼可以使用幾個關鍵字來搜尋,每個關鍵字之間使用空格來分隔。然後搜尋引擎就會將排序後的結果回送給使用者。如輸入 歷史 中國歷史 世界歷史 二戰 可以得到所有同時含有歷史 中國歷史 世界歷史 二戰關鍵字的網頁。3.縮小搜尋範圍 如果感覺搜尋...