scrapy redis實現分布式爬蟲

2021-10-06 23:20:03 字數 1629 閱讀 2565

一、認識與安裝scrapy_redis庫

1、認識scrapy_redis庫

scrapy_redis庫:提供了所需的功能,scrapy_redis改寫了scrapy的排程器、佇列等元件,利用這個庫可以方便地實現scrapy分布式架構。

2、安裝scrapy_redis庫

pip install scrapy_redis

二、**編寫

1、修改settings中的配置資訊

(1)替換scrapy排程器,使用scrapy_redis排程。

scheduler = 「scrapy_redis.scheduler.scheduler」

(2)使用scrapy_redis去重。

dupefilter_class = 「scrapy_redis.dupefilter.rfpdupefilter」

(3)設定redis的連線資訊,這裡的可以設定使用者名稱和密碼,如果沒有則為空。

redis_url = 「redis://localhost:6379」

(4)設定redis佇列是否儲存。

scheduler_persist = true

如果設定為true,則不會清空redis裡面的去重佇列和請求佇列,這樣設定後,去重佇列和請求佇列會一直儲存在redis資料庫中,使用者可以暫停和啟動爬蟲而不影響繼續去重。

(5)設定重啟爬蟲時是否清空爬蟲佇列。

scheduler_flush_on_start = true

如果設定為true,每次重啟爬蟲,系統都會清空去重佇列和請求佇列,一般設定為false。

2、修改spider檔案:

當使用scrapy_redis編寫分布式爬蟲時,需要將爬蟲類修改為繼承自scrapy_redis.spiders.rediscrawspider類。

from scrapy_redis.spiders import rediscrawlspider

from lianjia01.items import lianjia01item

class lianjiaspider(rediscrawlspider):

name = 『lianjia』

allowed_domains = [『m.lianjia.com』]

redis_key = 『lianjiaspider:start_urls』

……

修改完成後啟動爬蟲。因為**中沒有指定初始url,爬蟲會一直等待,沒有爬取任何網頁。使用者可以手動向redis的初始url佇列中新增url,佇列的名稱為:lianjiaspider:start_urls。

預設情況下,在命令列定位到redis目錄,採用集合的命令進行新增:

使用scrapy redis實現分布式

要實現分布式,主機之間需要共享爬取佇列和去衝集合,scrapy redis就是將request排程佇列 請求佇列和獲取的item放在了乙個多台主機可以同時訪問的redis資料庫中。剖析原始碼的工作請根據需要自行學習,直接給出settings中的配置。一 必要配置 以下配置是scrapy redis實...

scrapy redis實現分布式爬蟲

redis資料庫 redis是乙個開源的支援網路 可基於記憶體亦可持久化的日誌型 非關係型 key value資料庫,其結構十分靈活。redis是記憶體中的資料結構儲存系統,處理速度快,提供佇列集合等多種儲存結構,方便佇列維護。redis提供了集合資料結構,排程伺服器借助redis結合實現url去重...

scrapy redis實現分布式爬蟲

原來scrapy的scheduler維護的是本機的任務佇列 存放request物件及其 函式等資訊 本機的去重佇列 存放訪問過的url位址 所以實現分布式爬取的關鍵就是,找一台專門的主機上執行乙個共享的佇列比如redis,然後重寫scrapy的scheduler,讓新的scheduler到共享佇列訪...