65 爬蟲 Scrapy 框架

scrapy是用純python實現乙個為了爬取**資料、提取結構性資料而編寫的應用框架，用途非常廣泛。

框架的力量，使用者只需要定製開發幾個模組就可以輕鬆的實現乙個爬蟲，用來抓取網頁內容以及各種，非常之方便。

scrapy engine(引擎):負責spider、itempipeline、**********、scheduler中間的通訊，訊號、資料傳遞等。

scheduler(排程器):它負責接受引擎傳送過來的request請求，並按照一定的方式進行整理排列，入隊，當引擎需要時，交還給引擎。

spider（爬蟲）：它負責處理所有responses,從中分析提取資料，獲取item欄位需要的資料，並將需要跟進的url提交給引擎，再次進入scheduler(排程器)，

item pipeline(管道)：它負責處理spider中獲取到的item，並進行進行後期處理（詳細分析、過濾、儲存等）的地方.

spider middlewares（spider中介軟體）：你可以理解為是乙個可以自定擴充套件和操作引擎和spider中間通訊的功能元件（比如進入spider的responses;和從spider出去的requests）

**寫好，程式開始執行…

spider：老大要我處理***x.com。

引擎：你把第乙個需要處理的url給我吧。

spider：給你，第乙個url是******x.com。

引擎：hi！排程器，我這有request請求你幫我排序入隊一下。

排程器：好的，正在處理你等一下。

引擎：hi！排程器，把你處理好的request請求給我。

排程器：給你，這是我處理好的request

spider：（處理完畢資料之後對於需要跟進的url），hi！引擎，我這裡有兩個結果，這個是我需要跟進的url，還有這個是我獲取到的item資料。

引擎：hi ！管道我這兒有個item你幫我處理一下！排程器！這是需要跟進url你幫我處理下。然後從第四步開始迴圈，直到獲取完老大需要全部資訊。

管道``排程器：好的，現在就做！

scrapy爬蟲框架

作者經過幾周的python爬蟲實踐之後，深入學習了一下scrapy這個爬蟲框架，現將一些基本知識和總結整理一下，以備後查。2.scrapy的命令列使用這部分網上很多部落格都有總結，不需要背，理解會用主要的命令 startproject crawl fetch list genspider.即可，...

scrapy 爬蟲框架

1.安裝公升級pip版本 pip install upgrade pip 通過pip安裝scrapy框架 pip install scrapy 安裝成功只執行scrapy 進行測試是否安裝成功 2.scrapy startproject 爬蟲專案名稱執行此命令,可以生成乙個爬蟲專案會預先生成...

Scrapy爬蟲框架

scrapy中的各大元件及其功能 1.scrapy引擎 engine 引擎負責控制資料流在系統的所有元件中流動，並在相應動作發生時觸發事件。2.排程器 scheduler 排程器從引擎接收request並將它們入隊，以便之後引擎請求request時提供給引擎。4.spider。spider是scra...

65 爬蟲 Scrapy 框架

scrapy爬蟲框架

scrapy 爬蟲框架

Scrapy爬蟲框架

相關推薦