scrapy中的各大元件及其功能
1.scrapy引擎(engine)。引擎負責控制資料流在系統的所有元件中流動,並在相應動作發生時觸發事件。
2.排程器(scheduler)。排程器從引擎接收request並將它們入隊,以便之後引擎請求request時提供給引擎。
4.spider。spider是scrapy使用者編寫用於分析response並提供給item(即獲取到的item)或額外跟進url的類。每個spider負責處理乙個特定(或一些)**。
5.item pipline。item pipeline負責處理被spider提取出來的item。典型的處理有清理驗證及持久化(例如儲存到資料庫中)。
7.spider中介軟體(spider middlewares)。spider是在引擎及spider之間的特定鉤子(specific hook),處理spider的輸入(response)和輸出(item及request)。其提供了乙個簡便的機制,通過插入自定義**來擴充套件scrapy功能。
scrapy的工作流程
1、引擎開啟乙個**(open a domain),找到該**的spider並向該spider請求第乙個要爬取的url。
2、引擎從spider中獲取到第乙個要爬取的url並通過排程器(scheduler)以request進行排程。
3、引擎向排程器請求下乙個要爬取的url。
7、spider處理response並返回爬取到的item及(跟進的)新的request給引擎。
8、引擎將(spider返回的)爬取到的item給item pipeline,將(spider返回的)request給排程器。
scrapy爬蟲框架
作者經過幾周的python爬蟲實踐之後,深入學習了一下scrapy這個爬蟲框架,現將一些基本知識和 總結整理一下,以備後查。2.scrapy的命令列使用 這部分網上很多部落格都有總結,不需要背,理解會用主要的命令 startproject crawl fetch list genspider.即可,...
scrapy 爬蟲框架
1.安裝 公升級pip版本 pip install upgrade pip 通過pip安裝scrapy框架 pip install scrapy 安裝成功 只執行scrapy 進行測試是否安裝成功 2.scrapy startproject 爬蟲專案名稱 執行此命令,可以生成乙個爬蟲專案 會預先生成...
scrapy 爬蟲框架
爬蟲基礎 2 各模組的作用 close spider spider spider 爬蟲專案大概流程 1 新建專案 spider startproject 2 明確需要目標 產出 編寫item.py 可以有很多個,被按照順序載入執行 作用是對發出的請求和返回的結果進行預處理 在middlewares中...