一、概述
1.中介軟體的作用
在scrapy執行的整個過程中,對scrapy框架執行的某些步驟做一些適配自己專案的動作.
例如scrapy內建的httperrormiddleware,可以在http請求出錯時做一些處理.
2.中介軟體的使用方法
配置settings.py.詳見scrapy文件
二、中介軟體的分類
scrapy的中介軟體理論上有三種(schduler middleware,spider middleware,********** middleware),在應用上一般有以下兩種
1.爬蟲中介軟體spider middleware
主要功能是在爬蟲執行過程中進行一些處理.
三、使用
1.spider middleware有以下幾個函式被管理:
- process_spider_input 接收乙個response物件並處理,
位置是**********-->process_spider_input-->spiders(**********和spiders是scrapy官方結構圖中的元件)
- process_spider_exception spider出現的異常時被呼叫
- process_spider_output 當spider處理response返回result時,該方法被呼叫
- process_start_requests 當spider發出請求時,被呼叫
位置是spiders-->process_start_requests-->scrapy engine(scrapy engine是scrapy官方結構圖中的元件)
2.********** middleware有以下幾個函式被管理
編寫中介軟體時,需要思考要實現的功能最適合在那個過程處理,就編寫哪個方法.
中介軟體可以用來處理請求,處理結果或者結合訊號協調一些方法的使用等.也可以在原有的爬蟲上新增適應專案的其他功能,這一點在擴充套件中編寫也可以達到目的,實際上擴充套件更加去耦合化,推薦使用擴充套件.
windows系統下搭建爬蟲框架scrapy
摘要 本機環境為windows 7,64位系統,python 2.7 裝成了32位的了 1.安裝twisted 安裝完成後,你會在c python27 lib site packages目錄下看到twisted資料夾 2.安裝zope.inte ce 很多版本,根據windows位數,python版...
Python爬蟲常用之登入 二 瀏覽器模擬登入
瀏覽器模擬登入的主要技術點在於 1.如何使用python的瀏覽器操作工具selenium 2.簡單看一下網頁,找到帳號密碼對應的框框,要知道python開啟的瀏覽器如何定位到這些 一 使用selenium開啟網頁 from selenium import webdriver url driver w...
python爬蟲常用HTMLParser
htmlparser,顧名思義,是解析html的乙個工具。python自帶的。一 常用屬性和方法介紹 htmlparser是乙個類,在使用時一般繼承它然後過載它的方法,來達到解析出需要的資料的目的。1.常用屬性 lasttag,儲存上乙個解析的標籤名,是字串。2.常用方法 handle startt...