在命令列輸入:
scrapy startproject project_nameproject_name為專案名稱,比如我的專案名稱為py_scrapyjobbole,生成的目錄為:
在命令列輸入:
scrapy genspider jobbole(spider名稱) blog.jobbole.com(爬取的起始url)
# -*- coding: utf-8 -*-import
scrapy
class
jobbolespider
(scrapy
.spider
):name
='jobbole'
allowed_domains =[
'blog.jobbole.com'
]start_urls =[
'']def
parse
(self
,response
):re_select
=response
.xpath
('//*[@id="post-111322"]/div[1]/h1'
)pass
bot_name='py_scrapyjobbole'
spider_modules =[
'py_scrapyjobbole.spiders'
]newspider_module
='py_scrapyjobbole.spiders'
# crawl responsibly by identifying yourself (and your website) on the user-agent
# user_agent = 'py_scrapyjobbole (+'
# obey robots.txt rules
robotstxt_obey
=false
robotstxt_obey = false
一定要設定成 false,斷點除錯才能正常進行。
fromscrapy
.cmdline
import
execute
import
sysimport
os# 打斷點除錯py檔案
sys.
path.(
os.path
.dirname(os
.path
.abspath
(__file__
)))print(os
.path
.dirname(os
.path
.abspath
(__file__
)))execute
(['scrapy'
,'crawl'
,'jobbole'
])
pycharm中進行python包管理
pycharm中的專案中可以包含package 目錄 目錄名可以有空格 等等。目錄的某個包中的某個py檔案要呼叫另乙個py檔案中的函式,首先要將目錄設定為source root,這樣才能從包中至上至上正確引入函式,否則怎麼引入都出錯 systemerror parent module not loa...
PyCharm新增Liunx開發環境進行本地開發
工具善其事 必先利其器,乙個好的ide對於程式猿 攻城獅來說真的太重要了,但是好多初學程式設計的小白來說,安裝破解有些找不到頭緒,本篇文章主要簡單介紹如何部署乙個開發環境。首先在電腦上安裝pycharm,我的環境是window10 安裝並永久啟用pycharm可以參考我的部落格 pycharm永久啟...
利用pycharm進行重構學習記錄
pycharm是非常強大的pythonide,整合了很多實用的功能,其中就包括重構refactor 記錄下使用pycharm的重構 pycharm的refactor預設在主選單上就有了 refactor this該選單項會在游標出顯示所有支援的重構選項 rename重新命名,重新命名該函式,並應用到...