bot_name
預設: 'scrapybot'
當您使用 startproject 命令建立專案時其也被自動賦值。
concurrent_items
預設: 100
item processor(即 item pipeline) 同時處理(每個 response 的)item 的最大值。
concurrent_requests
預設: 16
scrapy ********** 併發請求(concurrent requests)的最大值。
default_request_headers
預設: 如下
scrapy http request 使用的預設 header。
depth_limit
預設: 0
爬取**最大允許的深度(depth)值。如果為 0,則沒有限制。
download_delay
預設: 0
輕伺服器壓力。同時也支援小數:
download_delay = 0.25 # 250 ms of delay
預設情況下,scrapy 在兩個請求間不等待乙個固定的值, 而是使用 0.5 到 1.5 之間的乙個
隨機值 * download_delay 的結果作為等待間隔。
download_timeout
預設: 180
item_pipelines
預設: {}
儲存專案中啟用的 pipeline 及其順序的字典。該字典預設為空,值(value)任意,不過值
(value)習慣設定在 0-1000 範圍內,值越小優先順序越高。
item_pipelines =
log_enabled
預設: true
是否啟用 logging。
log_encoding
預設: 'utf-8'
logging 使用的編碼。
log_level
預設: 'debug'
log 的最低級別。可選的級別有: critical、 error、warning、info、debug 。
user_agent
預設: "scrapy/version (+"
爬取的預設 user-agent,除非被覆蓋。
proxies: **設定
示例:proxies = [
, ,, ,
, ,]cookies_enabled = false
禁用 cookies
scrapy爬蟲框架
作者經過幾周的python爬蟲實踐之後,深入學習了一下scrapy這個爬蟲框架,現將一些基本知識和 總結整理一下,以備後查。2.scrapy的命令列使用 這部分網上很多部落格都有總結,不需要背,理解會用主要的命令 startproject crawl fetch list genspider.即可,...
scrapy 爬蟲框架
1.安裝 公升級pip版本 pip install upgrade pip 通過pip安裝scrapy框架 pip install scrapy 安裝成功 只執行scrapy 進行測試是否安裝成功 2.scrapy startproject 爬蟲專案名稱 執行此命令,可以生成乙個爬蟲專案 會預先生成...
Scrapy爬蟲框架
scrapy中的各大元件及其功能 1.scrapy引擎 engine 引擎負責控制資料流在系統的所有元件中流動,並在相應動作發生時觸發事件。2.排程器 scheduler 排程器從引擎接收request並將它們入隊,以便之後引擎請求request時提供給引擎。4.spider。spider是scra...