爬蟲技術之分布式爬蟲架構的講解

2022-09-28 08:45:06 字數 324 閱讀 2703

分布式爬蟲架構並不是一開始就出現的。而是乙個逐步演化的過程。

最開始入手寫爬蟲的時候,我們一般在個人計算機上完成爬蟲的入門和開發,而在真實的生產環境,就不能用個人計算機來執行爬蟲程式了,而是將爬蟲程式部署在伺服器上。利用伺服器不關機的特性,爬蟲可以不間斷的24小時執行。單機爬蟲的結構如下圖。

然而,由於爬蟲在爬取資料時,爬取頻次並不能太快,即使是爬蟲在伺服器上不間www.cppcns.com斷執行,效率可能也無法滿足實際需求。這時候,就需要在多機上部署爬蟲程式,用分布式爬蟲架構,進行資料爬取。分布式爬蟲的架構一般如下所示。

採用分布式爬蟲架構後,帶來了如下幾個好處。

總結

scrapy框架之分布式爬蟲

scrapy redis元件作用 實現流程 修改配置檔案settings 結合著配置檔案開啟redis服務 啟動客戶端 執行工程 進入到spiders目錄下 向排程器的佇列中放入乙個起始url 爬取到的資料儲存在了redis的proname items這個資料結構中 其實分布式的 並不難,主要是配置...

爬蟲 分布式爬蟲

爬蟲的本質 很多搞爬蟲的總愛吹噓分布式爬蟲,彷彿只有分布式才有逼格,不是分布式簡直不配叫爬蟲,這是一種很膚淺的思想。分布式只是提高爬蟲功能和效率的乙個環節而已,它從來不是爬蟲的本質東西。爬蟲的本質是網路請求和資料處理,如何穩定地訪問網頁拿到資料,如何精準地提取出高質量的資料才是核心問題。分布式爬蟲只...

分布式爬蟲

乙個基於scrapy redis的分布式爬蟲模板,在scrapy redis自帶的example的基礎上進行修改,新增在實際爬取過程中大部分爬蟲可能用到的功能,使的構建分布式爬蟲更加的簡單。scrapy redis windows ubuntu sudo apt get install redis ...