65 爬蟲 Scrapy 框架

2021-09-26 15:50:41 字數 1315 閱讀 7134

scrapy是用純python實現乙個為了爬取**資料、提取結構性資料而編寫的應用框架,用途非常廣泛。

框架的力量,使用者只需要定製開發幾個模組就可以輕鬆的實現乙個爬蟲,用來抓取網頁內容以及各種,非常之方便。

scrapy engine(引擎):負責spider、itempipeline、**********、scheduler中間的通訊,訊號、資料傳遞等。

scheduler(排程器):它負責接受引擎傳送過來的request請求,並按照一定的方式進行整理排列,入隊,當引擎需要時,交還給引擎。

spider(爬蟲):它負責處理所有responses,從中分析提取資料,獲取item欄位需要的資料,並將需要跟進的url提交給引擎,再次進入scheduler(排程器),

item pipeline(管道):它負責處理spider中獲取到的item,並進行進行後期處理(詳細分析、過濾、儲存等)的地方.

spider middlewares(spider中介軟體):你可以理解為是乙個可以自定擴充套件和操作引擎和spider中間通訊的功能元件(比如進入spider的responses;和從spider出去的requests)

**寫好,程式開始執行…

spider:老大要我處理***x.com。

引擎:你把第乙個需要處理的url給我吧。

spider:給你,第乙個url是******x.com。

引擎:hi!排程器,我這有request請求你幫我排序入隊一下。

排程器:好的,正在處理你等一下。

引擎:hi!排程器,把你處理好的request請求給我。

排程器:給你,這是我處理好的request

spider:(處理完畢資料之後對於需要跟進的url),hi!引擎,我這裡有兩個結果,這個是我需要跟進的url,還有這個是我獲取到的item資料。

引擎:hi !管道 我這兒有個item你幫我處理一下!排程器!這是需要跟進url你幫我處理下。然後從第四步開始迴圈,直到獲取完老大需要全部資訊。

管道``排程器:好的,現在就做!

scrapy爬蟲框架

作者經過幾周的python爬蟲實踐之後,深入學習了一下scrapy這個爬蟲框架,現將一些基本知識和 總結整理一下,以備後查。2.scrapy的命令列使用 這部分網上很多部落格都有總結,不需要背,理解會用主要的命令 startproject crawl fetch list genspider.即可,...

scrapy 爬蟲框架

1.安裝 公升級pip版本 pip install upgrade pip 通過pip安裝scrapy框架 pip install scrapy 安裝成功 只執行scrapy 進行測試是否安裝成功 2.scrapy startproject 爬蟲專案名稱 執行此命令,可以生成乙個爬蟲專案 會預先生成...

Scrapy爬蟲框架

scrapy中的各大元件及其功能 1.scrapy引擎 engine 引擎負責控制資料流在系統的所有元件中流動,並在相應動作發生時觸發事件。2.排程器 scheduler 排程器從引擎接收request並將它們入隊,以便之後引擎請求request時提供給引擎。4.spider。spider是scra...