Python網路爬蟲之框架1

scrapy不是乙個簡單的函式功能庫，而是乙個爬蟲框架

爬蟲框架：

engine ：已有的，核心，控制所有模組之間的資料流，根據條件觸發事件

scheduler：已有的，對所有的爬蟲請求進行排程管理

item pipelines ：框架出口，使用者編寫，以流水線方式處理spider產生的爬取項，由一組操作順序組成，類似流水線，每個操作是乙個item pipline型別，可能操作包括：清理，檢驗和查重爬取項中的html資料，將資料儲存到資料庫

spiders ：框架入口，使用者編寫，解析**********返回的響應，產生爬取項，以及額外的爬取請求

2個middleware：download middleware：實施engine，scheduler和**********之間使用者可配置的控制，即使用者可以修改、丟棄、新增請求或響應。spider middleware，對spider的請求和爬取項的再處理。修改、丟棄、新增請求或爬取項。

相同點：兩者都可以進行頁面請求和爬取，python爬蟲的兩個重要技術路線。兩者可用性好，文件豐富，入門簡單。

兩者都沒有處理js、提交表單、應對驗證碼等功能（可擴充套件）

不同點：

requests

scrapy

頁面級爬蟲

**級爬蟲

功能庫框架

併發性考慮不足，效能較差

併發性好，效能較高

重點在於爬蟲結構

定製靈活

一般定製靈活，深度定製困難

上手十分簡單

入門稍難

命令說明

格式startproject

建立乙個新工程

scrapy startproject [dir]

genspider

建立乙個爬蟲

scrapy genspidr [option]

settings

獲取爬蟲配置資訊

scrapy settings [options]

crawl

執行乙個爬蟲

scrapy crawl

lsit

列出工程中所有爬蟲

scrapy list

shell

啟動url除錯命令列

scrapy shell [url]

Python網路爬蟲之框架1

Python之網路爬蟲（1）

python 網路爬蟲（1）

Python之scrapy框架爬蟲

Python網路爬蟲之框架1

Python之網路爬蟲（1）

python 網路爬蟲（1）

Python之scrapy框架爬蟲

相關推薦