簡談搜尋引擎工作流程
網際網路是乙個寶庫,搜尋引擎是開啟寶庫的一把鑰匙。然而,絕大多數網民在搜尋引擎的相關知識及使用技巧上能力不足。國外的一次調查結果顯示,約有71%的人對搜尋的結果感到不同程度的失望。作為網際網路的第二大服務,這種狀況應該改變。 網際網路的迅速發展,導致了網上資訊的**性增長。全球目前的網頁超過20億,每天新增加730萬網頁。要在如此浩瀚的資訊海洋裡尋找資訊,就像「大海撈針」一樣困難。搜尋引擎正是為了解決這個「迷航」問題而出現的技術。 搜尋引擎的工作包括如下三個過程:
1.在互聯中發現、蒐集網頁資訊;
2.對資訊進行提取和組織建立索引庫;
3.再由檢索器根據使用者輸入的查詢關字,在索引庫中快速檢出文件,進行文件與查詢的相關度評價,對將要輸出的結果進行排序,並將查詢結果返回給使用者。
發現、蒐集網頁資訊
索引庫的建立
使用者檢索的過程
Google搜尋引擎的工作流程
google使用高速的分布式爬行器 crawler 系統中的漫遊遍歷器 googlebot 定時地遍歷網頁,將遍歷到的網頁送到儲存伺服器 store server 中。儲存伺服器使用zlib格式壓縮軟體將這些網頁進行無失真壓縮處理後存入資料庫repository 貯藏室 中。repository獲得...
搜尋引擎工作原理
搜尋引擎優化的主要任務之一就是提高 的搜尋引擎友好性,因此,搜尋引擎優化的每乙個環節都會與搜尋引擎工作流程存在必然的聯絡,研究搜尋引擎優化實際上就是對搜尋引擎工作過程進行逆向推理。因此,學習搜尋引擎優化應該從了解搜尋引擎的工作原理開始。搜尋引擎的主要工作包括 頁面收錄 頁面分析 頁面排序 及 關鍵字...
搜尋引擎工作原理
搜尋引擎工作原理 爬行和抓取 預處理 排名 爬行和抓取 1,是通過蛛蛛程式來實現的,蛛蛛主要是通過鏈結來抓取所有頁面的.所以要想讓蛛蛛盡量的抓取頁面,必須要吸引蛛蛛 優化 2,為了避免重複爬行和抓取 搜尋引擎建立了乙個位址庫用來儲存已經抓取的頁面 位址庫中的url 大多數是蛛蛛獲取到的,當然也有一些...