建立scrapy專案
scrapy startproject tutorial該條命令的作用是建立乙個名叫tutorial的爬蟲專案
檔案結構為:
tutorial/
scrapy.cfg:專案的配置檔案
tutorial/
__init__.py
items.py:自定義你爬下來儲存的資料型別
pipelines.py:將爬取的資料儲存到檔案中 / 查重並丟棄,spider返回item後將作為引數傳入該檔案中的pipeline函式
settings.py: 專案的設定檔案
spiders/ :放置爬蟲(如何爬取)的**的目錄
__init__.py
...
建立spider
scrapy genspider [-t template] spider_name-t 後面跟模板,比如basic/crawl(使用這個後繼承crawspider)
spider_name將會是你爬蟲檔案裡name變數的值
啟動spider
scrapy crawl ****** 是你在spiders目錄的***.py檔案中定義的name變數的值
例子:
import scrapy
class
dmozitem
(scrapy.item)
: title = scrapy.field(
) link = scrapy.field(
) desc = scrapy.field(
)
使用field定義
檔案路徑:tutotial/spiders/***.py
例子:
import scrapy
class
dmozspider
(scrapy.spiders.spider)
: name =
"dmoz"
allowed_domains =
["dmoz.org"
] start_urls =
["",""
]def
parse
(self, response)
: filename = response.url.split(
"/")[-
2]with
open
(filename,
'wb'
)as f:
f.write(response.body)
為了啟用pipeline元件,必須將它新增到settings.py下的
item_pipelines變數下
例子:
item_pipelines =
數字高低決定執行順序,按從低到高的順序依次執行pipeline 基於Scrapy爬蟲框架的執行原理
scrapy是乙個非常強大的第三方庫,也是乙個提高爬蟲效率的框架,入門較難。框架內部包含模組可以描述為 5 2 模組,包含 spiders,item piplines engine scheduler 而engine和spiders,之間包含了兩個中間鍵模組,因此叫 5 2 模組。從spider經過...
基於scrapy框架的爬蟲專案(一)
skr pi 一 參考資料 1.官方中文文件 2.簡單易操作的爬蟲框架 simplified scrapy 3.爬蟲框架scrapy的安裝與基本使用 二 simplified scrapy的使用方法 1.匯入simplified scrapy包 pip install simplified scra...
基於Scrapy框架編寫爬蟲專案
知識點 2種安裝模組的方式。以下兩種方式可以安裝絕大部分模組,網路安裝 指直接在控制台 pip install xx 第6條,配置過程 1.複製 f 程式設計 python lib site packages pywin32 system32 下的兩個.dll檔案 2.貼上到 c windows s...