搜尋引擎4大系統
三個data ingest service,定時到3個庫拿資料,基於時間戳的增量
2分析系統
基於xlst/xpath,可定製,輸入是feed entry, 輸出是3個方向
1)entry整體存檔,作為原始文件,data fragment service
2)用xlst 對 entry進行資料抽取、轉換,變成result item
3)用xlst對entry進行資料抽取,轉換,變成dimensionentry,就是倒排索引項,從當前entry抽出一部分資料,指向當前entry
3索引系統
1)resultitem的編號,儲存,pointertable維護
2)倒排索引項指向resultitem的 編號(之前是用自然主鍵關聯)、儲存,乙個索引專案根據match模式可能會分成很多索引項(所有字首,所有字尾)
乙個dimension乙個檔案,但檔案內部是按resultitem type 分組的,也就是乙個(dimension,resultitemtype)決定一棵樹
3)處理排序
4查詢系統
1)index load: build index trie, 資料master
2)open data 協議 -> 內部查詢格式
3)快取:查詢快取,resultitem快取
4)查詢執行:多條件的filter模式,intersect模式,排序
大搜尋引擎系統架構
搜尋引擎在資訊世界的地位是填補人與資訊世界的資訊斷層,而大搜尋服務技術對於網際網路使用者的體驗與應用,具有革命性的提公升和改善。與傳統搜尋引擎相比,其基本流程主要包括如下幾個方面 其次,多源融合知識獲取,即基於泛在網獲取的資料,面向泛在網路空間的海量實體及關係進知識挖掘 34,35 通過融合 關聯 ...
4 搜尋引擎語法
title abc 從標題中搜尋abc header abc 從http頭中搜尋abc body abc 從html正文中搜尋abc domain qq.com 搜尋根網域名稱帶有qq.com的 host gov.cn 從url中搜尋.gov.cn,注意搜尋要用host作為名稱 port 443 查...
搜尋引擎 索引
正排索引 文件編號,單詞編號,單詞的數量,單詞出現的位置。倒排索引 1,單詞詞典,儲存單詞以及統計資訊,單詞在記錄表中的便宜,可常駐記憶體,用雜湊表儲存。2,記錄表,單詞對應的文件集合,記錄單詞出現的數目 位置。文件採用差分變長編碼。其中文件可按編號公升序排列 可利用差分編碼 也可按出現次數排列,可...