scrapy框架基本使用

進入工程目錄

建立爬蟲檔案

編寫爬蟲檔案

執行工程

allow_domains：允許的網域名稱

parse(self, response):

scrapy工程預設是遵守robots協議的，需要在配置檔案中進行操作。

基於管道：

3.將在爬蟲檔案中解析的資料儲存封裝到item物件中

4.將儲存了解析資料的item物件提交給管道

5.在管道檔案中接收item物件，且對其進行任意形式的持久化儲存操作

6.在配置檔案中開啟管道

如何實現資料的備份？ -指的是將爬取到的一組資料儲存到多個不同的載體(檔案、mysql、redis)中

問題：那兩個管道類都接收到item，且對其進行持久化儲存，爬蟲檔案提交的item可以同時提交給兩個管道類嗎？

如何讓優先順序低的管道類也可以獲取接收到item呢？

如何手動發起post請求？

callback接收meta：

降低日誌級別：

禁止cookie：

禁止重試：

爬蟲中介軟體

作用：

攔截請求

請求頭的偽裝。

**

攔截響應。

攔截異常的請求物件

執行工程

鏈結提取器、規則解析器是crawlspider獨有的

鏈結提取器linkextractor

規則解析器rule

注意：follow=true:

scrapy-redis元件作用：

實現流程:

4.修改爬蟲檔案。

基於常規的操作獲取url,傳送請求解析資料。

5.修改配置檔案settings.py

使用scrapy_redis元件自己的排程器。

配置排程器是否要持久化，也就是當爬蟲結束了，要不要清空ready中請求佇列和去重指紋的set。如果是true，則表示要持久化儲存。就不清空資料。否則清空資料。

指定管道:

指定redis伺服器:

6.對redis的配置檔案進行配置(redis.windows.conf)

關閉保護模式。

7.啟動redis的伺服器和客戶端

8.執行分布式程式

9.向排程器的佇列中扔入乙個起始的url：

redis-cli：

核心：去重

實現增量：

Scrapy框架基礎使用

1 流程框架 2 在命令列中輸入scrapy，會有scrapy常見命令引數在命令中輸入scrapy startproject quote建立乙個叫quote的專案 cd到建立好的專案目錄中，然後執行scrapy genspider quotes quotes.toscrape.com，建立spid...

Python使用scrapy框架小結

1 整個專案的構成 2 乙個完整的專案設計四個python檔案的編寫，分別是items.py qutoes spider.py scrapy genspider qutoes spider.py jycinema.com後生成，非系統自帶 settings.py pipelines.py 四個檔案對...

Scrapy框架使用筆記

本文記錄scrapy基本使用方法，不涉及框架底層原理說明。建立專案 scrapy startproject 進入專案 cd 建立爬蟲 scrapy genspider 爬蟲名 com 爬取域生成檔案 scrapy crawl o json 生成某種型別的檔案執行爬蟲 scrapy crawl 列...

scrapy框架基本使用

Scrapy框架基礎使用

Python使用scrapy框架小結

Scrapy框架 使用筆記

相關推薦

Scrapy框架使用筆記