1、建立好專案和spider
在這裡獲取位址的url和車型的url進行拼接
淘車素材:
2、.匯入:from scrapy_redis.spiders import redisspider
更改spider繼承,讓spider繼承redisspider
3.注釋start_urls,新建乙個py檔案,用來將url儲存到redis資料中。
4、在spider增加類變數redis_key,
4、.主機在settings中進行配置。
主機setting配置:
###配置scrapy-redis排程器
『scheduler』:「scrapy_redis.scheduler.scheduler」,
###配置url去重
『dupefilter_class』:「scrapy_redis.dupefilter.rfpdupefilter」
item_pipelines =
###配置url去重
『dupefilter_class』:『scrapy_redis.dupefilter.rfpdupefilter』,
『scheduler_queue_class』:『scrapy_redis.queue.priorityqueue』,
###主機名
『redis_host』:『localhost』,
##埠號
『redis_port』 :6379
注意看需要加什麼請求頭
配置
8、對插入資料去重
配置資料庫和ip
記得啟動redis伺服器
2.從機步驟:
1,將star_urls初始化的**全部注釋。
2.從機的redis可以關閉
3、『redis_host』:主機ip,
『mongo_uri』:『localhost』
從機setting配置:
scheduler = 「scrapy_redis.scheduler.scheduler」
# 去重
『dupefilter_class』: 「scrapy_redis.dupefilter.rfpdupefilter」
『scheduler_queue_class』 :『scrapy_redis.queue.priorityqueue』
# item_pipelines =
爬蟲基礎 Scrapy Redis分布式爬蟲元件
scrapy是乙個框架,他本身是不支援分布式的。如果我們想要做分布式的爬蟲,就需要借助乙個元件叫做scrapy redis,這個元件正是利用了redis可以分布式的功能,整合到scrapy框架中,使得爬蟲可以進行分布式。可以充分的利用資源 多個ip 更多頻寬 同步爬取 來提高爬蟲的爬行效率。可以充分...
scrapy redis分布式爬蟲
依賴環境 scrapy 1.1 redis 2.8 分布式爬蟲 將乙個專案拷貝到多台電腦上,同時爬取資料。1.必須保證所有電腦上的 是相同的配置。2.在其中一台電腦上啟動redis和mysql的資料庫服務。3.同時將所有的爬蟲專案執行起來。4.在啟動redis和mysql資料庫的電腦上,向redis...
94 爬蟲 scrapy redis實戰(五)
有緣網的資料爬回來了,但是放在redis裡沒有處理。之前我們配置檔案裡面沒有定製自己的item pipelines,而是使用了redispipeline,所以現在這些資料都被儲存在redis的youyuan items鍵中,所以我們需要另外做處理。在scrapy youyuan目錄下可以看到乙個pr...