爬蟲基本原理與實戰 8 關於深度優先和廣度優先

**的樹結構

深度優先演算法和實現

廣度優先演算法和實現

在爬蟲系統中，待抓取url佇列是很重要的一部分，待抓取url佇列中的url以什麼樣的順序排隊列也是乙個很重要的問題，因為這涉及到先抓取哪個頁面，後抓取哪個頁面。而決定這些url排列順序的方法，叫做抓取策略。

下面是常用的兩種策略：深度優先、廣度優先

深度優先是指網路爬蟲會從起始頁開始，乙個鏈結乙個鏈結跟蹤下去，處理完這條線路之後再轉入下乙個起始頁，繼續追蹤鏈結，通過下圖進行理解：

注：scrapy預設採用的是深度優先演算法

這裡是深度優先，所以這裡的爬取的順序式：

a-b-d-e-i-c-f-g-h (遞迴實現)

深度優先演算法的實現（偽**）：

一爬蟲是什麼?爬蟲要做的是什麼？使用者獲取網路資料的方式是爬蟲程式要做的就是區別在於我們的爬蟲程式只提取網頁中對我們有用的資料為什麼要做爬蟲爬蟲的價值網際網路中最有價值的便是資料，比如天貓的商品資訊，鏈家網的租房資訊，雪球網的投資資訊等等，這些資料都代表了各個行業的真金可以說，...

三種爬蟲方式通用爬蟲抓取系統重要組成部分，獲取的是整張頁面資料聚焦爬蟲建立在通用爬蟲之上，抓取頁面指定的區域性內容增量式爬蟲檢測資料更新的情況，只抓取更新出來的資料 https協議安全的超文字傳輸協議證書秘鑰加密請求頭響應頭加密方式傳送請求獲取響應內容解析內容儲存資料...

一爬蟲介紹本質，就是想傳送http請求，拿回一些頁面 json格式資料 request 處理資料，解析出有用的東西 re，bs4 儲存 mysql，檔案，cvs，redis，mongodb，es 分析 cookie池和池正向和反向正向自己，反向伺服器爬蟲運用模組 requests...