進入工程目錄建立爬蟲檔案
編寫爬蟲檔案
執行工程
allow_domains:允許的網域名稱
parse(self, response):
scrapy工程預設是遵守robots協議的,需要在配置檔案中進行操作。
基於管道:
3.將在爬蟲檔案中解析的資料儲存封裝到item物件中
4.將儲存了解析資料的item物件提交給管道
5.在管道檔案中接收item物件,且對其進行任意形式的持久化儲存操作
6.在配置檔案中開啟管道
如何實現資料的備份? -指的是將爬取到的一組資料儲存到多個不同的載體(檔案、mysql、redis)中
問題:那兩個管道類都接收到item,且對其進行持久化儲存,爬蟲檔案提交的item可以同時提交給兩個管道類嗎?
如何讓優先順序低的管道類也可以獲取接收到item呢?
如何手動發起post請求?
callback接收meta:
降低日誌級別:
禁止cookie:
禁止重試:
爬蟲中介軟體作用:
攔截請求
請求頭的偽裝。
**
攔截響應。
攔截異常的請求物件
執行工程鏈結提取器、規則解析器是crawlspider獨有的
鏈結提取器linkextractor
規則解析器rule
注意:follow=true:
scrapy-redis元件作用:
實現流程:
4.修改爬蟲檔案。
基於常規的操作獲取url,傳送請求解析資料。
5.修改配置檔案settings.py
使用scrapy_redis元件自己的排程器。
配置排程器是否要持久化,也就是當爬蟲結束了,要不要清空ready中請求佇列和去重指紋的set。如果是true,則表示要持久化儲存。就不清空資料。否則清空資料。
指定管道:
指定redis伺服器:
6.對redis的配置檔案進行配置(redis.windows.conf)
關閉保護模式。
7.啟動redis的伺服器和客戶端
8.執行分布式程式
9.向排程器的佇列中扔入乙個起始的url:
redis-cli:
核心:去重實現增量:
Scrapy框架基礎使用
1 流程框架 2 在命令列中輸入scrapy,會有scrapy常見命令引數 在命令中輸入scrapy startproject quote建立乙個叫quote的專案 cd到建立好的專案目錄中,然後執行scrapy genspider quotes quotes.toscrape.com,建立spid...
Python使用scrapy框架小結
1 整個專案的構成 2 乙個完整的專案設計四個python檔案的編寫,分別是items.py qutoes spider.py scrapy genspider qutoes spider.py jycinema.com後生成,非系統自帶 settings.py pipelines.py 四個檔案對...
Scrapy框架 使用筆記
本文記錄scrapy基本使用方法,不涉及框架底層原理說明。建立專案 scrapy startproject 進入專案 cd 建立爬蟲 scrapy genspider 爬蟲名 com 爬取域 生成檔案 scrapy crawl o json 生成某種型別的檔案 執行爬蟲 scrapy crawl 列...