scrapy(/ˈskreɪpi/) 是乙個python編寫的開源網路爬蟲框架。它是乙個被設計用於爬取網路資料、提取結構性資料的程式框架。
使用scrapy框架可以很方便地爬取**。
菜鳥教程scrapy入門
scrapy官網入門教程
使用pip安裝scrapy。
使用scrapy startproject ***
新建乙個scrapy 專案。
建立乙個item類,繼承scrapy.item,明確抓取的目標。
使用scrapy genspider *** "url"
新建乙個spider.
完善各個**檔案內容,詳細見上方教程
使用scrapy crawl ***
開始爬取
如架構圖中所示,scrapy 總共有五個重要的元件和兩個中介軟體元件:
中介軟體的功能如架構圖所示
spider middlewares(spider中介軟體):自定擴充套件和操作引擎和spider中間通訊的功能元件(比如進入spider的responses;和從spider出去的requests)
scrapy 資料流轉流程,結合架構圖。
spider生成 requests 傳送到 engine, 中間經過 spidermiddleware處理。
engine將responses 返回到spider進行處理。中間經過一系列spidermiddleware。
spider提取responses 中資訊構造item 和生成新的requests, 送到engine,中間經過一系列spidermiddleware。
engine將item 送到item pipelines進行處理,將requests 送到schedule進行處理。
迴圈往復,直至結束。
【宣告】:本文部分內容源自scrapy官網 和菜鳥教程,侵刪。
Scrapy架構概述
1,從最初自己編寫的spiders,獲取到start url,並且封裝成request物件。2,通過engine 引擎 排程給scheduler requests管理排程器 3,scheduler管理engine傳遞過來的所有requests,通過優先順序,傳遞給engine。6,engin將res...
Scrapy爬蟲 三 scrapy架構及原理
scrapy現在已經完美支援python3 所以後面的例項我都會使用python3 的環境。首先我們來嚐下鮮,下面的 是scrapy官方文件中的一段演示 就這麼幾行 就完成了對 的爬取解析儲存,可以一窺scrapy的強大。quotes spider.py import scrapy class qu...
Scrapy的架構(爬蟲框架)
這就是整個scrapy的架構圖了 這裡寫描述 scrapy機構流程過程 scrapy engine spider middlewares spiders scheduler middlewares spiders item pipeline scrapy engine 引擎 這是引擎,負責spide...