02 第乙個爬蟲專案

2021-09-26 06:37:11 字數 1834 閱讀 1100

雖然是採用cmd命令來建立,但是可以通過scrapy -h來查詢相關的子命令,最後可以通過scrapy startproject douban方式來建立專案

c:\users\administrator\desktop>scrapy -h

scrapy 1.7

.3- no active project

usage:

scrapy

[options]

[args]

c:\users\administrator\desktop>scrapy startproject douban

new scrapy project 'douban'

, using template directory 'd:\anaconda3\lib\site-packages\scrapy\templates\project'

, created in

: c:\users\administrator\desktop\douban

you can start your first spider with

: cd douban

scrapy genspider example example.com

c:\users\administrator\desktop>cd douban

c:\users\administrator\desktop\douban>scrapy genspider douban_spider movie.douban.com

created spider 'douban_spider' using template 'basic'

in module:

douban.spiders.douban_spider

c:\users\administrator\desktop\douban>

細心的小夥伴會發現,douban_spider缺省會儲存到douban.spider目錄中,採用pycharm ide開啟會發現專案的結構如下:

scrapy.cfg:配置檔案spiders:存放你spider檔案,也就是你爬取的py檔案

items.py:相當於乙個容器,和字典較像 middlewares.py:定義**********

pipeline的實現,實現資料的清洗,儲存,驗證。 settings.py:全域性配置

settings.py 配置user-agent相關引數,否則爬取會出現失敗。

default_request_headers =
c:\users\administrator\desktop\douban>scrapy crawl douban_spider
import scrapy

class

doubanspiderspider

(scrapy.spider)

: name =

'douban_spider'

allowed_domains =

['movie.douban.com'

] start_urls =

['']def

parse

(self, response)

:print

(response.text)

第一Python第乙個爬蟲專案

完整程式碼 import urllib.request url headers req urllib.request.request url url,headers headers response urllib.request.urlopen req print response.read dec...

第乙個爬蟲

很多人學習python的目的就是為了學習能夠實現爬蟲的功能,這裡,我使用了scrapy框架來實現了乙個簡單的爬蟲功能,這裡我簡單的介紹一下scrapy專案的建立,和執行。1,第一步是安裝scrapy,我相信到了這一步,大多數人都已經會安裝第三方庫檔案了,這裡主要是使用命令pip install sc...

第乙個爬蟲

一 程式測試 二 開啟360網頁 三 html計算 四 中國大學排名 爬取年費2018 五 函式介紹總結 1.requests 庫的網頁請求函式 函式 說明 get url timeout n 對應http的get方式,設定請求超時時間為n秒 post url,data 對應http的post方式,...