網路爬蟲即起此作用,它是搜尋引擎系統中很關鍵也根基礎的構件。這裡主要介紹與網路爬蟲相關的技術,儘管爬蟲技術經過幾十年的發展,從整體框架上已相對成熟,但隨著聯網的不斷發展,也面臨著一些有挑戰性的新問題。
下圖所示是乙個通用的爬蟲框架流程。首先從網際網路頁面中精心選擇一部分網頁,以這些網頁的鏈結位址作為種子url,將這些種子url放入待抓取url佇列中,爬蟲從待抓取url佇列依次讀取,並將url通過dns解析,把鏈結位址轉換為**伺服器對應的ip位址。
對於爬蟲來說,往往還需要進行網頁去重及網頁反作弊。
上述是乙個通用爬蟲的整體流程,如果從更加巨集觀的角度考慮,處於動態抓取過程中的爬蟲和網際網路所有網頁之間的關係,可以大致像如圖2-2所身那樣,將網際網路頁面劃分為5個部分:
5.不可知網頁集合:有些網頁對於爬蟲來說是無法抓取到的,這部分網頁構成了不可知網頁集合。事實上,這部分網頁所佔的比例很高。
根據不同的應用,爬蟲系統在許多方面存在差異,大體而言,可以將爬蟲劃分為如下三種型別:
1. 批量型爬蟲(batch crawler):批量型爬蟲有比較明確的抓取範圍和目標,當爬蟲達到這個設定的目標後,即停止抓取過程。至於具體目標可能各異,也許是設定抓取一定數量的網頁即可,也許是設定抓取消耗的時間等。
2.增量型爬蟲(incremental crawler):增量型爬蟲與批量型爬蟲不同,會保持持續不斷的抓取,對於抓取到的網頁,要定期更新,因為網際網路的網頁處於不斷變化中,新增網頁、網頁被刪除或者網頁內容更改都很常見,而增量型爬蟲需要及時反映這種變化,所以處於持續不斷的抓取過程中,不是在抓取新網頁,就是在更新已有網頁。通用的商業搜尋引擎爬蟲基本都屬此類。
搜尋引擎爬蟲工作原理 大揭秘 新手推薦看下
網路爬蟲即起此作用,它是搜尋引擎系統中很關鍵也根基礎的構件。這裡主要介紹與網路爬蟲相關的技術,儘管爬蟲技術經過幾十年的發展,從整體框架上已相對成熟,但隨著聯網的不斷發展,也面臨著一些有挑戰性的新問題。下圖所示是乙個通用的爬蟲框架流程。首先從網際網路頁面中精心選擇一部分網頁,以這些網頁的鏈結位址作為種...
搜尋引擎工作原理
搜尋引擎優化的主要任務之一就是提高 的搜尋引擎友好性,因此,搜尋引擎優化的每乙個環節都會與搜尋引擎工作流程存在必然的聯絡,研究搜尋引擎優化實際上就是對搜尋引擎工作過程進行逆向推理。因此,學習搜尋引擎優化應該從了解搜尋引擎的工作原理開始。搜尋引擎的主要工作包括 頁面收錄 頁面分析 頁面排序 及 關鍵字...
搜尋引擎工作原理
搜尋引擎工作原理 爬行和抓取 預處理 排名 爬行和抓取 1,是通過蛛蛛程式來實現的,蛛蛛主要是通過鏈結來抓取所有頁面的.所以要想讓蛛蛛盡量的抓取頁面,必須要吸引蛛蛛 優化 2,為了避免重複爬行和抓取 搜尋引擎建立了乙個位址庫用來儲存已經抓取的頁面 位址庫中的url 大多數是蛛蛛獲取到的,當然也有一些...