在爬蟲系統中,待抓取url佇列是很重要的一部分,待抓取url佇列中的url以什麼樣的順序排隊列也是乙個很重要的問題,因為這涉及到先抓取哪個頁面,後抓取哪個頁面。而決定這些url排列順序的方法,叫做抓取策略。下面是常用的兩種策略:深度優先、廣度優先
深度優先是指網路爬蟲會從起始頁開始,乙個鏈結乙個鏈結跟蹤下去,處理完這條線路之後再轉入下乙個起始頁,繼續追蹤鏈結,通過下圖進行理解:
注:scrapy預設採用的是深度優先演算法
這裡是深度優先,所以這裡的爬取的順序式:
a-b-d-e-i-c-f-g-h (遞迴實現)
深度優先演算法的實現(偽**):
還是以這個圖為例子,廣度優先的爬取順序為:
a-b-c-d-e-f-g-h-i (佇列實現)
廣度優先**的實現(偽**):
所有的努力都值得期許,每乙份夢想都應該灌溉!
分類:
爬蟲
深度優先和廣度優先
在爬蟲系統中,待抓取url佇列是很重要的一部分,待抓取url佇列中的url以什麼樣的順序排隊列也是乙個很重要的問題,因為這涉及到先抓取哪個頁面,後抓取哪個頁面。而決定這些url排列順序的方法,叫做抓取策略。下面是常用的兩種策略 深度優先 廣度優先 注 scrapy預設採用的是深度優先演算法 這裡是深...
關於深度優先和廣度優先的問題
depth first search和breadth first search,即深度優先和廣度優先是圖的兩種搜尋的方法。其實與其說是方法,不如說是兩種思想。下面我們就來介紹這兩種思想。1 depth first search 深度優先是指在圖的查詢中,對每乙個分支深入到不能再深入為止,如果到達了終...
深度和廣度優先
深度優先演算法dfs depth first search 廣度優先演算法bfs breadth first search 又叫做層次遍歷,自上向下,自左向右逐層訪問結點,訪問完一層再訪問下一層,直到無結點。深度優先搜素演算法 不全部保留結點,占用空間少 有回溯操作 即有入棧 出棧操作 執行速度慢。...