大搜尋引擎系統架構

2021-07-02 02:45:38 字數 577 閱讀 4677

搜尋引擎在資訊世界的地位是填補人與資訊世界的資訊斷層,而大搜尋服務技術對於網際網路使用者的體驗與應用,具有革命性的提公升和改善。與傳統搜尋引擎相比,其基本流程主要包括如下幾個方面:

其次,多源融合知識獲取,即基於泛在網獲取的資料,面向泛在網路空間的海量實體及關係進知識挖掘[34,35],通過融合、關聯、統計、推理、乃至眾包等方法,支援巨規模實體與關係等知識,及時空屬性的表示與獲取;知識聚合中的知識是支援經過二次加工的,經過使用者的查詢、修改、反饋和自演化的過程,逐步完善的過程,該過程是大搜尋引擎的核心過程。

第五,安全隱私保護,即保證使用者搜尋的全程是安全的。首先確保資料**和推演加工結果是可信的;其次挖掘搜尋出使用者的隱私不被**和惡意利用;同時支援暴力、色情等惡意資訊的過濾。在資料蒐集獲取過程中,對資料**進行確認來保證資訊可溯源,最終使搜尋返回結果可信。大搜尋會並進行細粒度的訪問控制測試,保證合適的搜尋結果只返回給合適的使用者而不被濫用,並採取相關技術手段,保證使用者的隱私不被洩露或惡意分析利用。

Nutch搜尋引擎系統架構

下面分析一下nutch搜尋引擎系統的特點。一 系統架構 總體上nutch可以分為2個部分 抓取部分和搜尋部分。抓取程式抓取頁面並把抓取回來的資料做成反向索引,搜尋程式則對反向索引搜尋回答使用者的請求。抓 取程式和搜尋程式的介面是索引,兩者都使用索引中的字段。抓取程式和搜尋程式可以分別位於不同的機器上...

Nutch搜尋引擎系統架構

下面分析一下nutch搜尋引擎系統的特點。一 系統架構 總體上nutch可以分為2個部分 抓取部分和搜尋部分。抓取程式抓取頁面並把抓取回來的資料做成反向索引,搜尋程式則對反向索引搜尋回答使用者的請求。抓 取程式和搜尋程式的介面是索引,兩者都使用索引中的字段。抓取程式和搜尋程式可以分別位於不同的機器上...

搜尋引擎架構

最近對研究搜尋引擎有濃厚的興趣,在這裡總結如下 搜尋引擎的資訊 於網際網路網頁,通過網路爬蟲將整個網際網路的資訊獲取到本地,因為網頁中有相當大比例的內容是完全相同或近似重複的,網頁去重模組會對此進行檢測,並去除重複內容。之後搜尋引擎會對網頁進行解析,抽取出網頁主體內容,以及頁面包含的指向其他頁面的鏈...