Google搜尋引擎的工作流程

2021-08-25 13:21:16 字數 1691 閱讀 1877

①google使用高速的分布式爬行器(crawler)系統中的漫遊遍歷器(googlebot)定時地遍歷網頁,將遍歷到的網頁送到儲存伺服器(store server)中。

② 儲存伺服器使用zlib格式壓縮軟體將這些網頁進行無失真壓縮處理後存入資料庫repository (貯藏室)中。repository獲得了 每個網頁的完全html**後,對其壓縮後的網頁及url進行分析,記錄下網頁長度、url、url長度和網頁內容,並賦予每個網頁乙個文件號 (docid),以便當系統出現故障的時候,可以及時完整地進行網頁的資料恢復。

③索引器(indexer)從repository中讀取資料,以後做以下四步工作:

順排檔索引和hit的儲存結構如圖所示。

順排檔索引和hit的儲存結構

值 得注意的是,當特殊索引項來自anchor text時,特殊索引項用來表示位置的資訊(8位)將分為兩部分:4位表示 anchor text出現的具體位置,另4位則用來與表示anchor text所鏈結網頁的docid相連線,這個docid是 由url resolver經過轉化存入順排檔索引的。

(b)索引器除了對網頁中有意義的詞進行分析外,還分析網頁的所有超文字鏈結,將其anchor text、url指向等關鍵資訊存入到anchor文件庫中。

(d) 索引器還將分析過的網頁編排成乙個與repository相連線的文件索引(document.nbspindex),並記錄下網頁的url和標題,以便 可以準確查詢出在repository中儲存的原網頁內容。而且把沒有分析的網頁傳給url server,以便在下一次工作流程中進行索引分 析。

⑤url分析器(url resolver)讀取anchor文件中的資訊,然後做⑥中的工作。

⑥(a) 將其錨文字(anchor text)所指向的url轉換成網頁的docid;(b)將該docid與原網頁的docid形成「鏈 接對」,存入link資料庫中;(c)將anchor text指向的網頁的docid與順排檔特殊索引項 anchor hits相連線。

⑦資料庫link記錄了網頁的鏈結關係,用來計算網頁的pagerank值。

⑧文件索引(document.nbspindex)把沒有進行索引分析的網頁傳遞給url server,url server則向crawler提供待遍歷的url,這樣,這些未被索引的網頁在下一次工作流程中將被索引分析。

倒排檔索引結構

⑩ 將生成的倒排檔索引與先前由索引器產生的索引詞表(lexicon)相連線產生乙個新的索引詞表供搜尋器(searcher)使用。搜尋器的功能是由網頁 伺服器實現的,根據新產生的索引詞表結合上述的文件索引(document.nbspindex)和link資料庫計算的網頁pagerank值來匹配檢 索。

在執行檢索時,google通常遵循以下步驟(以下所指的是單個檢索詞的情況):

(1)將檢索詞轉化成相應的wordid;

(2)利用lexicon,檢索出包含該wordid的網頁的docid;

(3)根據與lexicon相連的倒排檔索引,分析各網頁中的相關索引項的情況,計算各網頁和檢索詞的匹配程度,必要時呼叫順排檔索引;

(4)根據各網頁的匹配程度,結合根據link產生的相應網頁的pagerank情況,對檢索結果進行排序;

(5)呼叫document.nbspindex中的docid及其相應的url,將排序結果生成檢索結果的最終列表,提供給檢索使用者。

使用者檢索包含多個檢索詞的情況與以上單個檢索詞的情況類似:先做單個檢索詞的檢索,然後根據檢索式中檢索符號的要求進行必要的布林操作或其他操作。

簡談搜尋引擎工作流程

簡談搜尋引擎工作流程 網際網路是乙個寶庫,搜尋引擎是開啟寶庫的一把鑰匙。然而,絕大多數網民在搜尋引擎的相關知識及使用技巧上能力不足。國外的一次調查結果顯示,約有71 的人對搜尋的結果感到不同程度的失望。作為網際網路的第二大服務,這種狀況應該改變。網際網路的迅速發展,導致了網上資訊的 性增長。全球目前...

Google搜尋引擎的奧秘

pagerank 演算法中使用的數學知識包括 正矩陣性質 特徵值和特徵向量 冪迭代演算法 gauss seidel迭代演算法等.pagerank 得分是介於 0 和 1 之間的乙個數,得分越大表示網頁越重要.1 pagerank基於假設關係 許多優質的網頁中超連結的網頁,必定是優質網頁 以此判定所有...

國內使用google搜尋引擎

谷歌瀏覽器安裝谷歌訪問助手方法 上面的方法好像失效了,以下是更新 2019.12.17 chrome瀏覽器訪問 chrome extensions 把解壓後的資料夾拖進去 如下圖 新的訪問方式 2021年7月30日更新 谷歌訪問助手外掛程式用不了了,現在用別的外掛程式 iguge 可以正常使用 提取...