爬蟲 Scrapy介紹

2021-09-27 13:26:32 字數 1134 閱讀 4432

scrapy是乙個為了爬取**資料,提取結構性資料而編寫的應用框架。 其可以應用在資料探勘,資訊處理或儲存歷史資料等一系列的程式中。

其最初是為了頁面抓取 (更確切來說, 網路抓取 )所設計的, 也可以應用在獲取api所返回的資料(例如 amazon associates web services ) 或者通用的網路爬蟲。scrapy用途廣泛,可以用於資料探勘、監測和自動化測試。

2.scrapy主要包括了以下元件:

(1)引擎(scrapy)

用來處理整個系統的資料流處理, 觸發事務(框架核心)

(2)排程器(scheduler)

用來接受引擎發過來的請求, 壓入佇列中, 並在引擎再次請求的時候返回. 可以想像成乙個url(抓取網頁的**或者說是鏈結)的優先佇列, 由它來決定下乙個要抓取的**是什麼, 同時去除重複的**

(5)專案管道(pipeline)

負責處理爬蟲從網頁中抽取的實體,主要的功能是持久化實體、驗證實體的有效性、清除不需要的資訊。當頁面被爬蟲解析後,將被傳送到專案管道,並經過幾個特定的次序處理資料。

(7)爬蟲中介軟體(spider middlewares)

介於scrapy引擎和爬蟲之間的框架,主要工作是處理蜘蛛的響應輸入和請求輸出。

(8)排程中介軟體(scheduler middewares)

介於scrapy引擎和排程之間的中介軟體,從scrapy引擎傳送到排程的請求和響應。

3.scrapy執行流程大概如下:

4.專案結構以及爬蟲應用簡介

project_name/

scrapy.cfg

project_name/

__init__.py

items.py

pipelines.py

settings.py

spiders/

__init__.py

爬蟲1.py

爬蟲2.py

爬蟲3.py

檔案說明:

scrapy爬蟲介紹

當時我是在anaconda中建立乙個虛擬環境spider 首先安裝anaconda這個包 使用 conda create n your env name python x.x 2.7 3.6等 命令建立python版本為x.x 名字為your env name的虛擬環境。your env name檔...

Scrapy爬蟲框架介紹

scrapy是乙個為了爬取 資料,提取結構性資料而編寫的應用框架。可以應用在包括資料探勘,資訊處理或儲存歷史資料等一系列的程式中。其最初是為了 頁面抓取 更確切來說,網路抓取 所設計的,也可以應用在獲取api所返回的資料 例如 amazon associates web services 或者通用的...

Scrapy爬蟲框架介紹

爬蟲框架是實現爬蟲功能的乙個軟體結構和功能元件集合。爬蟲框架是乙個半成品,能夠幫助使用者實現專業網路爬蟲。五個模組 spiders 爬蟲 解析 產生的相應 response 產生爬取項item,產生額外的爬取請求 requests scheduler 排程器 負責對爬取請求進行排程管理 可能同時有多...