Scrapy爬蟲提高效率

2022-08-23 06:21:15 字數 777 閱讀 6638

如何提高scrapy的爬取效率

預設scrapy開啟的併發執行緒為32個,可以適當進行增加。在settings配置檔案中修改concurrent_requests = 100值為100,併發設定成了為100。

降低日誌級別:

在執行scrapy時,會有大量日誌資訊的輸出,為了減少cpu的使用率。可以設定log輸出資訊為info或者error即可。在配置檔案中編寫:log_level = 『info』

禁止cookie:

如果不是真的需要cookie,則在scrapy爬取資料時可以進製cookie從而減少cpu的使用率,提公升爬取效率。在配置檔案中編寫:cookies_enabled = false

禁止重試:

對失敗的http進行重新請求(重試)會減慢爬取速度,因此可以禁止重試。在配置檔案中編寫:retry_enabled = false

scrapy的日誌等級

- 在使用scrapy crawl spiderfilename執行程式時,在終端裡列印輸出的就是scrapy的日誌資訊。

- 日誌資訊的種類:

error : 一般錯誤

warning : 警告

info : 一般的資訊

debug : 除錯資訊

- 設定日誌資訊指定輸出:

在settings.py配置檔案中,加入

log_level = 『指定日誌資訊種類』即可。

log_file = 'log.txt'則表示將日誌資訊寫入到指定檔案中進行儲存。

如何提高效率

如果問 你想不想使自己的收入加倍 我猜每個人的答案都是 yes 如果我繼續問 你相不相信現在你的收入會加倍 我想有一些人可能會沒把握,有一些人認為不太可能,我告訴各位 你們每個人的收入一定會加 倍 因為按照每年物價增長率及通貨膨脹的正常速度,20年後你的收入一定會加倍。但是如果你希望,提前在5年內 ...

Python 提高效率

最近師兄給了小任務,算乙個p值。任務詳情是這樣的 第一步,有基因集a,23個元素,基因集b,451個元素,共有23 451 9922個組合 當然你要考慮去重 看在ppi資料庫 145萬多行資料 中出現的組合總個數 觀察值 第二步,然後再以hg19中基因為背景基因集,放回隨機抽取23個基因構成基因集c...

如何提高效率

在提高班學習有很長的一段時間了,學習的收穫中有一點是非常的明顯,那就是自己的效率明顯的比原來高出許多,現在就按照自己的切身體會來總結一下如何提高自己效率.1 目標 必須要有目標,沒有目標和方向效率會大大的折扣.當然不僅僅是學習,更是生活,事業,和人的整個一生.這點公尺老師非常的重視,每個學習階段都給...