《大規模元搜尋引擎技》 1 4 本書概述

2021-09-23 16:39:48 字數 843 閱讀 7794

本書的其餘部分將專注於大規模元搜尋引擎技術。現在簡述其餘各章。

第2章首先概述乙個典型的大規模元搜尋引擎的主要部件。這些部件包括搜尋引擎選擇器、搜尋引擎加入器和結果合併器。通過對元搜尋引擎和主流搜尋引擎兩種搜尋技術優點和缺點的仔細分析,這一章試圖提出充分理由來闡述元搜尋引擎技術可以作為主流搜尋引擎之外的另一種可行搜尋技術。最後,鑑於元搜尋引擎構建於web環境,這一章將對web環境進行討論,進而對構建大規模元搜尋引擎所面臨的挑戰給出一些見解。

第3章集中討論搜尋引擎選擇器。對任何給定的使用者查詢,這個部件的目標是在元搜尋引擎使用的那些搜尋引擎中,確定哪個搜尋引擎最有可能返回有用的結果。這一章將解決三個重要的問題:如何代表每個搜尋引擎的內容;如何使用代表資訊選擇搜尋引擎;如何生成代表資訊。這一章將介紹幾種型別的方法但重點討論使用搜尋詞的詳細統計資料來代表搜尋引擎內容的方法。

第4章討論把搜尋引擎加入元搜尋引擎所需的技術。將涉及兩個主要問題。第一是關於元搜尋引擎與其每個成員搜尋引擎之間建立通訊的問題。基本上,乙個元搜尋引擎需要把使用者查詢傳給每個成員搜尋引擎,根據每個成員搜尋引擎格式要求進行必要的查詢格式改變,並接收每個成員搜尋引擎返回的響應頁面。第二個問題是關於從響應頁面提取搜尋結果記錄,每個記錄對應於乙個檢索頁面。這一章將介紹幾種結果提取技術。

第5章介紹各種搜尋結果合併演算法。這些演算法沿著幾個維度涵蓋廣泛的場景。第乙個維度是有關使用每個結果的何種型別資訊進行合併,資訊種類可從每個結果的本地排序,到每個結果的標題和概覽,到每個結果的完整文件。一些合併演算法同時使用多種型別的資訊。第二個維度是各成員搜尋引擎返回查詢的文件之間的重疊度,範圍可從沒有重疊到有一些重疊,到完全相同的文件集。

第6章總結本書主要論述的內容,討論元搜尋引擎技術未來的發展方向,列出一些具有挑戰性的有待研究的具體問題。

搜尋引擎 索引

正排索引 文件編號,單詞編號,單詞的數量,單詞出現的位置。倒排索引 1,單詞詞典,儲存單詞以及統計資訊,單詞在記錄表中的便宜,可常駐記憶體,用雜湊表儲存。2,記錄表,單詞對應的文件集合,記錄單詞出現的數目 位置。文件採用差分變長編碼。其中文件可按編號公升序排列 可利用差分編碼 也可按出現次數排列,可...

MySQL搜尋引擎程式 mysql搜尋引擎

mysql是我們比較常用的一種資料庫軟體。它有著諸多的優點,如開源的,免費的等等。其實它還有乙個很好的特點,那就是有多種引擎可以供你選擇。如果賽車手能根據不同的路況,地形隨手更換與之最適宜的引擎,那麼他們將創造奇蹟。然而目前他們還做不到那樣便捷的更換引擎,但是我們卻可以 所謂知己知彼方可百戰不殆,要...

搜尋引擎基礎知識1 搜尋引擎的技術架構

搜尋引擎按其工作方式主要可分為三種 分別是全文搜尋引擎 full text search engine 目錄索引類搜尋引擎 search index directory 元搜尋引擎 meta search engine 全文搜尋引擎 雖然有搜尋功能,但嚴格意義上不能稱為真正的搜尋引擎,只是按目錄分類...