雖然是採用cmd命令來建立,但是可以通過scrapy -h來查詢相關的子命令,最後可以通過scrapy startproject douban方式來建立專案
c:\users\administrator\desktop>scrapy -h
scrapy 1.7
.3- no active project
usage:
scrapy
[options]
[args]
c:\users\administrator\desktop>scrapy startproject douban
new scrapy project 'douban'
, using template directory 'd:\anaconda3\lib\site-packages\scrapy\templates\project'
, created in
: c:\users\administrator\desktop\douban
you can start your first spider with
: cd douban
scrapy genspider example example.com
c:\users\administrator\desktop>cd douban
c:\users\administrator\desktop\douban>scrapy genspider douban_spider movie.douban.com
created spider 'douban_spider' using template 'basic'
in module:
douban.spiders.douban_spider
c:\users\administrator\desktop\douban>
細心的小夥伴會發現,douban_spider缺省會儲存到douban.spider目錄中,採用pycharm ide開啟會發現專案的結構如下:
scrapy.cfg:配置檔案spiders:存放你spider檔案,也就是你爬取的py檔案
items.py:相當於乙個容器,和字典較像 middlewares.py:定義**********
pipeline的實現,實現資料的清洗,儲存,驗證。 settings.py:全域性配置
settings.py 配置user-agent相關引數,否則爬取會出現失敗。
default_request_headers =
c:\users\administrator\desktop\douban>scrapy crawl douban_spider
import scrapy
class
doubanspiderspider
(scrapy.spider)
: name =
'douban_spider'
allowed_domains =
['movie.douban.com'
] start_urls =
['']def
parse
(self, response)
:print
(response.text)
第一Python第乙個爬蟲專案
完整程式碼 import urllib.request url headers req urllib.request.request url url,headers headers response urllib.request.urlopen req print response.read dec...
第乙個爬蟲
很多人學習python的目的就是為了學習能夠實現爬蟲的功能,這裡,我使用了scrapy框架來實現了乙個簡單的爬蟲功能,這裡我簡單的介紹一下scrapy專案的建立,和執行。1,第一步是安裝scrapy,我相信到了這一步,大多數人都已經會安裝第三方庫檔案了,這裡主要是使用命令pip install sc...
第乙個爬蟲
一 程式測試 二 開啟360網頁 三 html計算 四 中國大學排名 爬取年費2018 五 函式介紹總結 1.requests 庫的網頁請求函式 函式 說明 get url timeout n 對應http的get方式,設定請求超時時間為n秒 post url,data 對應http的post方式,...