其實,做爬蟲工作,大部分會選擇的框架就是scrapy,但是scrapy具體優勢如何進行工作呢,這裡簡單的說一下個的理解。
scrapy,python開發的乙個快速,高層次的螢幕抓取和web抓取框架,用於抓取web站點並從頁面中提取結構化的資料。scrapy用途廣泛,可以用於資料探勘、監測和自動化測試。
scrapy吸引人的地方在於它是乙個框架,任何人都可以根據需求方便的修改。它也提供了多種型別爬蟲的基類,如basespider、sitemap爬蟲等,最新版本又提供了web2.0爬蟲的支援。
說到scrapy,第一步就要了解框架的結構。乙個經典的框架結構圖形象的展示了框架的結構和工作流程,並且更容易記憶。
我們來介紹一下框架的各個元件,以及各個元件的功能:
接下來就是了解其工作流程:
引擎從排程器中取出乙個鏈結(url)用於接下來的抓取
爬蟲解析response
解析出實體(item),則交給實體管道進行進一步的處理
解析出的是鏈結(url),則把url交給排程器等待抓取
還有更加詳細的使用說明可以訪問下面這位博主的文章,使用說明
scrapy爬蟲框架
作者經過幾周的python爬蟲實踐之後,深入學習了一下scrapy這個爬蟲框架,現將一些基本知識和 總結整理一下,以備後查。2.scrapy的命令列使用 這部分網上很多部落格都有總結,不需要背,理解會用主要的命令 startproject crawl fetch list genspider.即可,...
scrapy 爬蟲框架
1.安裝 公升級pip版本 pip install upgrade pip 通過pip安裝scrapy框架 pip install scrapy 安裝成功 只執行scrapy 進行測試是否安裝成功 2.scrapy startproject 爬蟲專案名稱 執行此命令,可以生成乙個爬蟲專案 會預先生成...
Scrapy爬蟲框架
scrapy中的各大元件及其功能 1.scrapy引擎 engine 引擎負責控制資料流在系統的所有元件中流動,並在相應動作發生時觸發事件。2.排程器 scheduler 排程器從引擎接收request並將它們入隊,以便之後引擎請求request時提供給引擎。4.spider。spider是scra...