進行抓取任務時很苦惱的一點在於為了除錯某個第三,四層以上的跳轉鏈結需要等待將前面的鏈結都跑一遍,才能確定某個頁面的parse函式是否正確,scrapy的命令列引數 parse就是為了解決這一問題.
syntax: scrapy parse [options]意思就是 scrpy parse ** 可選引數
官網給出的例子 $ scrapy shell
.com/some/page.html
開始執行時結果總是沒有列印出任何log來,於是將原本0.25的scrapy公升級到1.0
這時再輸入
scrapy parse
.com -c group_parse
報了這樣的錯誤
error: unable to find spider for: .com
還有可能是這樣的
traceback (most recent call last):
file "/usr/local/bin/scrapy", line
11, in
sys.exit(execute())
file "/library/python/2.7/site-packages/scrapy/cmdline.py", line
143, in execute
_run_print_help(parser, _run_command, cmd, args, opts)
file "/library/python/2.7/site-packages/scrapy/cmdline.py", line
89, in
_run_print_help
func(*a, **kw)
file "/library/python/2.7/site-packages/scrapy/cmdline.py", line
150, in
_run_command
cmd.run(args, opts)
file "/library/python/2.7/site-packages/scrapy/commands/parse.py", line
220, in run
self.set_spidercls(url, opts)
file "/library/python/2.7/site-packages/scrapy/commands/parse.py", line
147, in set_spidercls
self.spidercls.start_requests = _start_requests
attributeerror: 'nonetype' object has no attribute 'start_requests'
好吧,自動找不到我們就顯示指定下爬蟲的名字
就是在繼承自spider類裡定義的那個name裡的值
class
douban
(spider):
name = "douban_spider"
ok 問題解決 Linux下除錯core dump 檔案的方法
在開發和使用linux 程式時,引擎有時會莫名 其妙的core 掉,在網上查了一下,整理了乙個簡 單的除錯core 檔案的方法。1 什麼是core dump?core,即core memory,而dump 就是堆放的 意思。core dump 又叫核心轉儲,當程式執行過 程中發生異常,程式異常退出時...
scrapy的除錯方法
parse命令,scrapy shell,logging 一 parse命令 檢查spider輸出的最基本方法是使用parse命令。這能讓你在函式層上檢查spider哥哥部分的效果,其十分靈活並且已用。不過不能在 中測試。二 scrapy shell 基本使用是配合view 檢視scapy拿到的資料...
在tomcat下除錯webwork程式的問題
今天在tomcat4下使用webwork2.2.1作了乙個示例程式,為了簡單,我把所有用到的.jar檔案都放到tomcat根目錄下的shared檔案下,後來在jsp用到webwork的taglib,按照webwork2.2.1示例中的說法,現在可以不用在web.xml檔案中宣告這個webwork.t...