Scrapy的架構(爬蟲框架)

2021-08-26 02:24:02 字數 883 閱讀 5914

這就是整個scrapy的架構圖了;

這裡寫描述

scrapy機構流程過程

scrapy engine》spider middlewares》spiders》scheduler

》********** middlewares》**********》spiders》item pipeline

scrapy engine(引擎):

這是引擎,負責spiders、itempipeline、**********、scheduler中間的通訊,訊號、資料傳遞等等!(像不像人的身體?)

scheduler(排程器):

它負責接受引擎傳送過來的requests請求,並按照一定的方式進行整理排列,入隊、並等待scrapy engine(引擎)來請求時,交給引擎。

spiders:

它負責處理所有responses,從中分析提取資料,獲取item欄位需要的資料,並將需要跟進的url提交給引擎,再次進入scheduler(排程器),

item pipeline:

它負責處理spiders中獲取到的item,並進行處理,比如去重,持久化儲存(存資料庫,寫入檔案,總之就是儲存資料用的)

spider middlewares(spider中介軟體):

你可以理解為是乙個可以自定擴充套件和操作引擎和spiders中間『通訊『的功能元件(比如進入spiders的responses;和從spiders出去的requests)

scrapy爬蟲框架

作者經過幾周的python爬蟲實踐之後,深入學習了一下scrapy這個爬蟲框架,現將一些基本知識和 總結整理一下,以備後查。2.scrapy的命令列使用 這部分網上很多部落格都有總結,不需要背,理解會用主要的命令 startproject crawl fetch list genspider.即可,...

scrapy 爬蟲框架

1.安裝 公升級pip版本 pip install upgrade pip 通過pip安裝scrapy框架 pip install scrapy 安裝成功 只執行scrapy 進行測試是否安裝成功 2.scrapy startproject 爬蟲專案名稱 執行此命令,可以生成乙個爬蟲專案 會預先生成...

Scrapy爬蟲框架

scrapy中的各大元件及其功能 1.scrapy引擎 engine 引擎負責控制資料流在系統的所有元件中流動,並在相應動作發生時觸發事件。2.排程器 scheduler 排程器從引擎接收request並將它們入隊,以便之後引擎請求request時提供給引擎。4.spider。spider是scra...