搜尋引擎爬蟲工作原理大揭秘

網路爬蟲即起此作用，它是搜尋引擎系統中很關鍵也根基礎的構件。這裡主要介紹與網路爬蟲相關的技術，儘管爬蟲技術經過幾十年的發展，從整體框架上已相對成熟，但隨著聯網的不斷發展，也面臨著一些有挑戰性的新問題。

下圖所示是乙個通用的爬蟲框架流程。首先從網際網路頁面中精心選擇一部分網頁，以這些網頁的鏈結位址作為種子url，將這些種子url放入待抓取url佇列中，爬蟲從待抓取url佇列依次讀取，並將url通過dns解析，把鏈結位址轉換為**伺服器對應的ip位址。

對於爬蟲來說，往往還需要進行網頁去重及網頁反作弊。

上述是乙個通用爬蟲的整體流程，如果從更加巨集觀的角度考慮，處於動態抓取過程中的爬蟲和網際網路所有網頁之間的關係，可以大致像如圖2-2所身那樣，將網際網路頁面劃分為5個部分：

5.不可知網頁集合：有些網頁對於爬蟲來說是無法抓取到的，這部分網頁構成了不可知網頁集合。事實上，這部分網頁所佔的比例很高。

根據不同的應用，爬蟲系統在許多方面存在差異，大體而言，可以將爬蟲劃分為如下三種型別:

1. 批量型爬蟲（batch crawler）：批量型爬蟲有比較明確的抓取範圍和目標，當爬蟲達到這個設定的目標後，即停止抓取過程。至於具體目標可能各異，也許是設定抓取一定數量的網頁即可，也許是設定抓取消耗的時間等。

2.增量型爬蟲（incremental crawler）：增量型爬蟲與批量型爬蟲不同，會保持持續不斷的抓取，對於抓取到的網頁，要定期更新，因為網際網路的網頁處於不斷變化中，新增網頁、網頁被刪除或者網頁內容更改都很常見，而增量型爬蟲需要及時反映這種變化，所以處於持續不斷的抓取過程中，不是在抓取新網頁，就是在更新已有網頁。通用的商業搜尋引擎爬蟲基本都屬此類。

搜尋引擎爬蟲工作原理大揭秘

搜尋引擎爬蟲工作原理大揭秘新手推薦看下

搜尋引擎工作原理

搜尋引擎工作原理

搜尋引擎爬蟲工作原理 大揭秘

搜尋引擎爬蟲工作原理 大揭秘 新手推薦看下

搜尋引擎工作原理

搜尋引擎工作原理

相關推薦

搜尋引擎爬蟲工作原理大揭秘

搜尋引擎爬蟲工作原理大揭秘新手推薦看下