scrapy的除錯方法

2022-04-04 20:28:08 字數 1271 閱讀 9405

parse命令,scrapy shell,logging

一 parse命令

檢查spider輸出的最基本方法是使用parse命令。這能讓你在函式層上檢查spider哥哥部分的效果,其十分靈活並且已用。不過不能在**中測試。

二 scrapy shell

基本使用是配合view 檢視scapy拿到的資料。

高階的用法是。通過scrapy.shell.inspect_response 方法來檢視spider的某個位置中被處理的response,以確認期望的response是否到達特定位置。

效果就相當於,每乙個知道到parse的respons,都會支援shell命令,以供檢視。

還是很有用的。

import scrapy

from

scrapy.shell import inspect_response

start_url = '

'class

xiaohuaspider(scrapy.spider):

name = '

xiaohua

'def start_requests(self):

yield scrapy.request(url=start_url.format(1

)) def parse(self, response):

inspect_response(response,self)

items = response.css('

div.list_center > ul > li')

for item in

items:

title = item.css('

a.title::text

').extract_first()

print(title)

next_ = response.css('

div.listpage > ol > li:nth-child(14) > a::text')

if next_.extract_first() == '':

next_url = response.css('

div.listpage > ol > li:nth-child(14) > a::attr(href)

').extract_first()

# print(next_url)

abs_url =response.urljoin(next_url)

yield scrapy.request(url=abs_url)

三 logging

scrapy下除錯單個函式的方法

進行抓取任務時很苦惱的一點在於為了除錯某個第三,四層以上的跳轉鏈結需要等待將前面的鏈結都跑一遍,才能確定某個頁面的parse函式是否正確,scrapy的命令列引數 parse就是為了解決這一問題.syntax scrapy parse options 意思就是 scrpy parse 可選引數 官網...

scrapy爬蟲除錯

在scrapy框架執行時,除錯爬蟲是必不可少的一步,用於常規檢查爬蟲執行過程中item與介面返回值,主要操作如下 新建 debug.py檔案,寫入內容如下 from scrapy import cmdline name main scrapy的名稱 cmd scrapy crawl format n...

scrapy 建立 除錯

如何建立scrapy專案?輸入命令 scrapy startproject project name 在當前目錄下建立名字叫project name的scrapy專案 命令格式 scrapy startproject 專案名 如何啟動官方提供的爬蟲模版?進入project name這個專案目錄下,輸...