python爬蟲常用之Scrapy 中介軟體

2021-09-24 17:19:33 字數 997 閱讀 9501

一、概述

1.中介軟體的作用

在scrapy執行的整個過程中,對scrapy框架執行的某些步驟做一些適配自己專案的動作.

例如scrapy內建的httperrormiddleware,可以在http請求出錯時做一些處理.

2.中介軟體的使用方法

配置settings.py.詳見scrapy文件

二、中介軟體的分類

scrapy的中介軟體理論上有三種(schduler middleware,spider middleware,********** middleware),在應用上一般有以下兩種

1.爬蟲中介軟體spider middleware

主要功能是在爬蟲執行過程中進行一些處理.

三、使用

1.spider middleware有以下幾個函式被管理:

- process_spider_input 接收乙個response物件並處理,

位置是**********-->process_spider_input-->spiders(**********和spiders是scrapy官方結構圖中的元件)

- process_spider_exception spider出現的異常時被呼叫

- process_spider_output 當spider處理response返回result時,該方法被呼叫

- process_start_requests 當spider發出請求時,被呼叫

位置是spiders-->process_start_requests-->scrapy engine(scrapy engine是scrapy官方結構圖中的元件)         

2.********** middleware有以下幾個函式被管理

編寫中介軟體時,需要思考要實現的功能最適合在那個過程處理,就編寫哪個方法.

中介軟體可以用來處理請求,處理結果或者結合訊號協調一些方法的使用等.也可以在原有的爬蟲上新增適應專案的其他功能,這一點在擴充套件中編寫也可以達到目的,實際上擴充套件更加去耦合化,推薦使用擴充套件.

windows系統下搭建爬蟲框架scrapy

摘要 本機環境為windows 7,64位系統,python 2.7 裝成了32位的了 1.安裝twisted 安裝完成後,你會在c python27 lib site packages目錄下看到twisted資料夾 2.安裝zope.inte ce 很多版本,根據windows位數,python版...

Python爬蟲常用之登入 二 瀏覽器模擬登入

瀏覽器模擬登入的主要技術點在於 1.如何使用python的瀏覽器操作工具selenium 2.簡單看一下網頁,找到帳號密碼對應的框框,要知道python開啟的瀏覽器如何定位到這些 一 使用selenium開啟網頁 from selenium import webdriver url driver w...

python爬蟲常用HTMLParser

htmlparser,顧名思義,是解析html的乙個工具。python自帶的。一 常用屬性和方法介紹 htmlparser是乙個類,在使用時一般繼承它然後過載它的方法,來達到解析出需要的資料的目的。1.常用屬性 lasttag,儲存上乙個解析的標籤名,是字串。2.常用方法 handle startt...