02 第乙個爬蟲專案

雖然是採用cmd命令來建立，但是可以通過scrapy -h來查詢相關的子命令，最後可以通過scrapy startproject douban方式來建立專案

c:\users\administrator\desktop>scrapy -h scrapy 1.7 .3- no active project usage: scrapy [options] [args] c:\users\administrator\desktop>scrapy startproject douban new scrapy project 'douban' , using template directory 'd:\anaconda3\lib\site-packages\scrapy\templates\project' , created in : c:\users\administrator\desktop\douban you can start your first spider with : cd douban scrapy genspider example example.com

c:\users\administrator\desktop>cd douban c:\users\administrator\desktop\douban>scrapy genspider douban_spider movie.douban.com created spider 'douban_spider' using template 'basic' in module: douban.spiders.douban_spider c:\users\administrator\desktop\douban>

細心的小夥伴會發現，douban_spider缺省會儲存到douban.spider目錄中，採用pycharm ide開啟會發現專案的結構如下：

scrapy.cfg：配置檔案spiders：存放你spider檔案，也就是你爬取的py檔案

items.py：相當於乙個容器，和字典較像 middlewares.py：定義**********

pipeline的實現，實現資料的清洗，儲存，驗證。 settings.py：全域性配置

settings.py 配置user-agent相關引數，否則爬取會出現失敗。

default_request_headers =

c:\users\administrator\desktop\douban>scrapy crawl douban_spider

import scrapy
class
doubanspiderspider
(scrapy.spider)
:    name =
'douban_spider'
allowed_domains =
['movie.douban.com'
]    start_urls =
['']def
parse
(self, response)
:print
(response.text)

02 第乙個爬蟲專案

第一Python第乙個爬蟲專案

第乙個爬蟲

第乙個爬蟲

相關推薦