網路爬蟲一網路爬蟲基本原理

一、網路爬蟲的基本結構及工作流程

乙個通用的網路爬蟲的框架如圖所示：

網路爬蟲的基本工作流程如下：

1.首先選取一部分精心挑選的種子url；

2.將這些url放入待抓取url佇列；

4.分析已抓取url佇列中的url，分析其中的其他url，並且將url放入待抓取url佇列，從而進入下乙個迴圈。

二、從爬蟲的角度對網際網路進行劃分

對應的，可以將網際網路的所有頁面分為五個部分：

4.可知網頁：還沒有抓取下來，也沒有在待抓取url佇列中，但是可以通過對已抓取頁面或者待抓取url對應頁面進行分析獲取到的url，認為是可知網頁。

三、抓取策略

在爬蟲系統中，待抓取url佇列是很重要的一部分。待抓取url佇列中的url以什麼樣的順序排列也是乙個很重要的問題，因為這涉及到先抓取那個頁面，後抓取哪個頁面。而決定這些url排列順序的方法，叫做抓取策略。下面重點介紹幾種常見的抓取策略：

1.深度優先遍歷策略

深度優先遍歷策略是指網路爬蟲會從起始頁開始，乙個鏈結乙個鏈結跟蹤下去，處理完這條線路之後再轉入下乙個起始頁，繼續跟蹤鏈結。我們以下面的圖為例：

4.可知網頁：還沒有抓取下來，也沒有在待抓取url佇列中，但是可以通過對已抓取頁面或者待抓取url對應頁面進行分析獲取到的url，認為是可知網頁。

三、抓取策略

1.深度優先遍歷策略

遍歷的路徑：a-f-g e-h-i b c d

2.寬度優先遍歷策略

遍歷路徑：a-b-c-d-e-f g h i

3.反向鏈結數策略

反向鏈結數是指乙個網頁被其他網頁鏈結指向的數量。反向鏈結數表示的是乙個網頁的內容受到其他人的推薦的程度。因此，很多時候搜尋引擎的抓取系統會使用這個指標來評價網頁的重要程度，從而決定不同網頁的抓取先後順序。

在真實的網路環境中，由於廣告鏈結、作弊鏈結的存在，反向鏈結數不能完全等他我那個也的重要程度。因此，搜尋引擎往往考慮一些可靠的反向鏈結數。

4.partial pagerank策略

5.opic策略策略

6.大站優先策略

參考書目：

1.《這就是搜尋引擎——核心技術詳解》　　張俊林　　電子工業出版社

2.《搜尋引擎技術基礎》　　　　　　　　　劉奕群等　清華大學出版社

網路爬蟲 一 網路爬蟲基本原理