爬蟲基本原理與實戰 8 關於深度優先和廣度優先

2021-08-17 17:18:03 字數 523 閱讀 9990

**的樹結構

深度優先演算法和實現

廣度優先演算法和實現

在爬蟲系統中,待抓取url佇列是很重要的一部分,待抓取url佇列中的url以什麼樣的順序排隊列也是乙個很重要的問題,因為這涉及到先抓取哪個頁面,後抓取哪個頁面。而決定這些url排列順序的方法,叫做抓取策略。

下面是常用的兩種策略:深度優先、廣度優先

深度優先是指網路爬蟲會從起始頁開始,乙個鏈結乙個鏈結跟蹤下去,處理完這條線路之後再轉入下乙個起始頁,繼續追蹤鏈結,通過下圖進行理解:

注:scrapy預設採用的是深度優先演算法

這裡是深度優先,所以這裡的爬取的順序式:

a-b-d-e-i-c-f-g-h (遞迴實現)

深度優先演算法的實現(偽**):

爬蟲基本原理

一 爬蟲是什麼?爬蟲要做的是什麼?使用者獲取網路資料的方式是 爬蟲程式要做的就是 區別在於 我們的爬蟲程式只提取網頁 中對我們有用的資料 為什麼要做爬蟲 爬蟲的價值 網際網路中最有價值的便是資料,比如天貓 的商品資訊,鏈家網的租房資訊,雪球網的 投資資訊等等,這些資料都代表了各個行業的真金 可以說,...

爬蟲基本原理

三種爬蟲方式 通用爬蟲 抓取系統重要組成部分,獲取的是整張頁面資料 聚焦爬蟲 建立在通用爬蟲之上,抓取頁面指定的區域性內容 增量式爬蟲 檢測 資料更新的情況,只抓取更新出來的資料 https協議 安全的超文字傳輸協議 證書秘鑰加密 請求頭 響應頭 加密方式 傳送請求 獲取響應內容 解析內容 儲存資料...

爬蟲基本原理

一 爬蟲介紹 本質,就是想 傳送http請求,拿回一些頁面 json格式資料 request 處理資料,解析出有用的東西 re,bs4 儲存 mysql,檔案,cvs,redis,mongodb,es 分析 cookie池和 池 正向 和反向 正向 自己,反向 伺服器 爬蟲運用模組 requests...