Scrapy settings相關配置

2021-09-25 13:53:55 字數 2510 閱讀 6282

在settings裡可以自定義配置scrapy元件

#專案名稱,

bot_name =

'downloadware'

# 爬蟲儲存的檔案路徑

spider_modules =

['downloadware.spiders'

]# 建立爬蟲檔案的模板,建立好的爬蟲檔案會存放在這個目錄下

newspider_module =

'downloadware.spiders'

以上三項在建立scrapy專案的時候就會自動建立好

# 模擬瀏覽器請求,使用者**,一般設定這個引數用來偽裝瀏覽器請求

user_agent =

# 是否遵行robots協議,為false時,表示不遵守,預設為true,表示遵守

robotstxt_obey =

false

concurrent_requests =

10download_delay =

0.25

# 每個網域名稱下能夠被執行的最大的併發請求資料量,預設8個

concurrent_requests_per_domain =

16# 設定某個ip最大併發請求數量,預設0個

oncurrent_requests_per_ip =

16# 1. 如果oncurrent_requests_per_ip非0,則忽略 concurrent_requests_per_domain 設定,使用oncurrent_requests_per_ip設定。 也就是說,併發限制 將針對ip,而不是**。

# 是否要攜帶cookies,一般情況下, 不是必須要攜帶cookies的請求,我們 將這個引數設定為false,預設為: true

cookies_enabled =

true

# 設定預設的請求頭,注意在這裡設定的cookie不會生效

default_request_headers =

中介軟體設定

#設定和啟用爬蟲中介軟體

spider_middlewares =

**********_middlewares =

#設定和啟用管道檔案

item_pipelines =

# 中介軟體後面的數值表示優先順序,數值越小,優先執行

擴充套件設定

#自動限速擴充套件(實現上乙個請求和下乙個請求的時間是不固定的,預設為false

autothrottle_enabled =

true

# 相關設定

autothrottle_start_delay =

5autothrottle_max_delay =

60#針對**最大的並行請求數量

autothrottle_target_concurrency =

1.0#除錯模式(可以展示每個response每個限速時間)預設為false

autothrottle_debug =

false

#設定資料快取預設為false

#開啟快取的擴充套件外掛程式

#設定快取的超時時間預設為0表示永遠生效

0#設定快取資料的儲存路徑

#忽略某些狀態碼的請求結果

日誌配置

log_enabled =

true

# 預設: true 是否啟用logging。

log_encoding =

'utf-8'

# 預設: 'utf-8' logging使用的編碼。

log_level =

'debug'

# 預設: 'debug' log的最低級別。可選的級別有: critical、 error、warning、info、debug 。

#critical 嚴重錯誤

#error 一般錯誤

#warning 警告資訊

#info 一般資訊

#debug 除錯資訊

log_file

#預設: none

# logging 輸出的檔名。如果為none,則使用標準錯誤輸出(standard error)。  

# logging 使用 scrapy提供了log功能,可以通過 logging 模組使用。

# 例子

log_file =

"asd.log"

log_level =

"info"

GetCurrentDirectory相關問題

dword getcurrentdirectory dword nbufferlength,size of directory buffer lptstr lpbuffer directory buffer 函式功能 獲取當前程序的當前目錄。注意當前目錄這東西有點怪異,本來確實是可執行檔案的所在目錄...

Map JSONObject String相互轉換

map轉jsonobject com.alibaba fastjson 1.2.59 jsonobject info jsonobject.parseobject json.tojsonstring map jsonobject轉map jsonobject json new jsonobject ...

AdaBoost scikit learn相關引數

base estimator 弱分類器物件,預設為cart分類樹 decisiontreeclassifier algorithm samme和samme.r samme表示構建過程中 使用樣本集分類效果作為弱分類器的權重 samme.r使用對樣本集分類的 概率大小作為弱分類器的權重。由於samme...