爬蟲scrapy redis 淘車案例

2021-09-28 17:09:54 字數 1731 閱讀 9573

1、建立好專案和spider

在這裡獲取位址的url和車型的url進行拼接

淘車素材:

2、.匯入:from scrapy_redis.spiders import redisspider

更改spider繼承,讓spider繼承redisspider

3.注釋start_urls,新建乙個py檔案,用來將url儲存到redis資料中。

4、在spider增加類變數redis_key,

4、.主機在settings中進行配置。

主機setting配置:

###配置scrapy-redis排程器

『scheduler』:「scrapy_redis.scheduler.scheduler」,

###配置url去重

『dupefilter_class』:「scrapy_redis.dupefilter.rfpdupefilter」

item_pipelines =

###配置url去重

『dupefilter_class』:『scrapy_redis.dupefilter.rfpdupefilter』,

『scheduler_queue_class』:『scrapy_redis.queue.priorityqueue』,

###主機名

『redis_host』:『localhost』,

##埠號

『redis_port』 :6379

注意看需要加什麼請求頭

配置

8、對插入資料去重

配置資料庫和ip

記得啟動redis伺服器

2.從機步驟:

1,將star_urls初始化的**全部注釋。

2.從機的redis可以關閉

3、『redis_host』:主機ip,

『mongo_uri』:『localhost』

從機setting配置:

scheduler = 「scrapy_redis.scheduler.scheduler」

# 去重

『dupefilter_class』: 「scrapy_redis.dupefilter.rfpdupefilter」

『scheduler_queue_class』 :『scrapy_redis.queue.priorityqueue』

# item_pipelines =

爬蟲基礎 Scrapy Redis分布式爬蟲元件

scrapy是乙個框架,他本身是不支援分布式的。如果我們想要做分布式的爬蟲,就需要借助乙個元件叫做scrapy redis,這個元件正是利用了redis可以分布式的功能,整合到scrapy框架中,使得爬蟲可以進行分布式。可以充分的利用資源 多個ip 更多頻寬 同步爬取 來提高爬蟲的爬行效率。可以充分...

scrapy redis分布式爬蟲

依賴環境 scrapy 1.1 redis 2.8 分布式爬蟲 將乙個專案拷貝到多台電腦上,同時爬取資料。1.必須保證所有電腦上的 是相同的配置。2.在其中一台電腦上啟動redis和mysql的資料庫服務。3.同時將所有的爬蟲專案執行起來。4.在啟動redis和mysql資料庫的電腦上,向redis...

94 爬蟲 scrapy redis實戰(五)

有緣網的資料爬回來了,但是放在redis裡沒有處理。之前我們配置檔案裡面沒有定製自己的item pipelines,而是使用了redispipeline,所以現在這些資料都被儲存在redis的youyuan items鍵中,所以我們需要另外做處理。在scrapy youyuan目錄下可以看到乙個pr...