PyCharm下進行Scrapy專案的除錯

2021-08-08 02:22:30 字數 1485 閱讀 3336

在命令列輸入:

scrapy startproject project_name
project_name為專案名稱,比如我的專案名稱為py_scrapyjobbole,生成的目錄為:

在命令列輸入:

scrapy genspider jobbole(spider名稱) blog.jobbole.com(爬取的起始url)
# -*- coding: utf-8 -*-

import

scrapy

class

jobbolespider

(scrapy

.spider

):name

='jobbole'

allowed_domains =[

'blog.jobbole.com'

]start_urls =[

'']def

parse

(self

,response

):re_select

=response

.xpath

('//*[@id="post-111322"]/div[1]/h1'

)pass

bot_name 

='py_scrapyjobbole'

spider_modules =[

'py_scrapyjobbole.spiders'

]newspider_module

='py_scrapyjobbole.spiders'

# crawl responsibly by identifying yourself (and your website) on the user-agent

# user_agent = 'py_scrapyjobbole (+'

# obey robots.txt rules

robotstxt_obey

=false

robotstxt_obey = false一定要設定成 false,斷點除錯才能正常進行。

from

scrapy

.cmdline

import

execute

import

sysimport

os# 打斷點除錯py檔案

sys.

path.(

os.path

.dirname(os

.path

.abspath

(__file__

)))print(os

.path

.dirname(os

.path

.abspath

(__file__

)))execute

(['scrapy'

,'crawl'

,'jobbole'

])

pycharm中進行python包管理

pycharm中的專案中可以包含package 目錄 目錄名可以有空格 等等。目錄的某個包中的某個py檔案要呼叫另乙個py檔案中的函式,首先要將目錄設定為source root,這樣才能從包中至上至上正確引入函式,否則怎麼引入都出錯 systemerror parent module not loa...

PyCharm新增Liunx開發環境進行本地開發

工具善其事 必先利其器,乙個好的ide對於程式猿 攻城獅來說真的太重要了,但是好多初學程式設計的小白來說,安裝破解有些找不到頭緒,本篇文章主要簡單介紹如何部署乙個開發環境。首先在電腦上安裝pycharm,我的環境是window10 安裝並永久啟用pycharm可以參考我的部落格 pycharm永久啟...

利用pycharm進行重構學習記錄

pycharm是非常強大的pythonide,整合了很多實用的功能,其中就包括重構refactor 記錄下使用pycharm的重構 pycharm的refactor預設在主選單上就有了 refactor this該選單項會在游標出顯示所有支援的重構選項 rename重新命名,重新命名該函式,並應用到...