scrapy下除錯單個函式的方法

2021-07-08 21:57:20 字數 1609 閱讀 9119

進行抓取任務時很苦惱的一點在於為了除錯某個第三,四層以上的跳轉鏈結需要等待將前面的鏈結都跑一遍,才能確定某個頁面的parse函式是否正確,scrapy的命令列引數 parse就是為了解決這一問題.

syntax: scrapy parse [options]

意思就是 scrpy parse ** 可選引數

官網給出的例子 $ scrapy shell       

.com/some/page.html

開始執行時結果總是沒有列印出任何log來,於是將原本0.25的scrapy公升級到1.0

這時再輸入

scrapy parse 

.com -c group_parse

報了這樣的錯誤

error: unable to find spider for: .com
還有可能是這樣的

traceback (most recent call last):

file "/usr/local/bin/scrapy", line

11, in

sys.exit(execute())

file "/library/python/2.7/site-packages/scrapy/cmdline.py", line

143, in execute

_run_print_help(parser, _run_command, cmd, args, opts)

file "/library/python/2.7/site-packages/scrapy/cmdline.py", line

89, in

_run_print_help

func(*a, **kw)

file "/library/python/2.7/site-packages/scrapy/cmdline.py", line

150, in

_run_command

cmd.run(args, opts)

file "/library/python/2.7/site-packages/scrapy/commands/parse.py", line

220, in run

self.set_spidercls(url, opts)

file "/library/python/2.7/site-packages/scrapy/commands/parse.py", line

147, in set_spidercls

self.spidercls.start_requests = _start_requests

attributeerror: 'nonetype' object has no attribute 'start_requests'

好吧,自動找不到我們就顯示指定下爬蟲的名字

就是在繼承自spider類裡定義的那個name裡的值

class

douban

(spider):

name = "douban_spider"

ok 問題解決

Linux下除錯core dump 檔案的方法

在開發和使用linux 程式時,引擎有時會莫名 其妙的core 掉,在網上查了一下,整理了乙個簡 單的除錯core 檔案的方法。1 什麼是core dump?core,即core memory,而dump 就是堆放的 意思。core dump 又叫核心轉儲,當程式執行過 程中發生異常,程式異常退出時...

scrapy的除錯方法

parse命令,scrapy shell,logging 一 parse命令 檢查spider輸出的最基本方法是使用parse命令。這能讓你在函式層上檢查spider哥哥部分的效果,其十分靈活並且已用。不過不能在 中測試。二 scrapy shell 基本使用是配合view 檢視scapy拿到的資料...

在tomcat下除錯webwork程式的問題

今天在tomcat4下使用webwork2.2.1作了乙個示例程式,為了簡單,我把所有用到的.jar檔案都放到tomcat根目錄下的shared檔案下,後來在jsp用到webwork的taglib,按照webwork2.2.1示例中的說法,現在可以不用在web.xml檔案中宣告這個webwork.t...