一、由上圖可知,scrapy由以下元件組成:
1、engine:scrapy的引擎元件
2、scheduler:scrapy的排程器元件
4、spiders:scrapy的爬蟲元件
5、item、pipline:scrapy的管道元件
7、spidersmiddlewares: scrapy的spider中介軟體元件
二、每個元件的具體作用如下:
1、engine引擎負責scheduler、**********、spiders、items、pipline中間的通訊、訊號和資料的傳遞,相當於乙個資訊傳遞的橋梁。
2、scheduler是乙個request請求排程器,負責接收engine引擎傳送過來的request請求,然後scheduler排程器將request請求排隊,放入佇列中。當engine引擎需要請求資料的時候,scheduler排程器就將請求佇列中的資料傳送給engine引擎。
5、item、pipline管道元件,是封裝資料去重類,資料儲存類的地方。負責處理spider中獲取到的資料,進行後期的處理,對資料進行過濾或者儲存等。
7、spidersmiddlewares是自定義擴充套件引擎和spider中間通訊功能的元件。比如說,進入spider的response和從spider出去的request,可以在中間做一些修改。
三,資料流向
1、首先在spider中編寫請求的url,相當於引擎問spider想處理那些request請求,這時spider就會做出回應,將已編寫的request請求傳送給engin引擎;
2、engine引擎將spider傳送過的的請求發給scheduler排程器,排程器會將request請求排序成佇列;
3、engine引擎將會請求scheduler排程器是否已將request請求入隊,若已入隊,則scheduler排程器將請求佇列傳送給engine引擎;
5、spider接收engine引擎傳送過來的資料,對資料進行分析。該資料由兩部分組成,一部分是我們請求的資料,這部分資料會交給item、pipline進行資料儲存或者清洗;另一部分是新的請求,spider會將新的請求傳送給引擎,然後引擎再將這些新的請求傳送到排程器進行排隊。然後重複1、2、3、4操作,直到獲取到全部的資訊為止。
Scrapy的簡介及工作流程講解
目錄 1 簡介 2 安裝 3 scrapy架構圖 名詞解釋 4 scrapy工作流程 scrapy是乙個python的爬蟲框架,它使用twisted作為非同步處理網路請求 它可以將非結構化的資料或者半結構化的資料轉化為結構化資料。包含了各種中介軟體去各司其職的去完成乙個任務。spiders發起乙個請...
Scrapy框架的流程
那麼 scrapy是如何幫助我們抓取資料的呢?scrapy框架的工作流程 1.首先spiders 爬蟲 將需要傳送請求的url requests 經scrapyengine 引擎 交給scheduler 排程器 2.scheduler 排序,入隊 處理後,經scrapyengine,middlewa...
scrapy 爬取流程
什麼時候到pipeline,什麼 時候到spider這個就不說了,這個是框架跳轉到的流程 關鍵是訪問之前要登入怎麼辦,資料還要注入呢 這是個列表,裡面就是爬取的鏈結了 我們前面爬取就只是寫了乙個,但是其實可以寫多個 鏈結又是怎麼訪問的呢 這東西你就可以手動提取鏈結返回了 這東西你就得好好注意了 從入...