scrapy框架的安裝和搭建

scrapy是乙個為了爬取**資料，提取結構性資料而編寫的應用程式框架。可以應用在包括資料探勘、資訊處理或儲存歷史資料等一系列的程式中。其最初是為了網頁抓取(網路抓取)所設計的，也可以應用在獲取api 所返回的資料(如 amazon associates webservices)或通用的網路爬蟲中。

scrapy是乙個爬蟲框架而非功能函式庫，簡單地說，它是乙個半成品，可以幫助使用者簡單快速地部署乙個專業的網路爬蟲。

引擎(engine)

引擎負責控制資料流在系統所有元件中的流向，並能在不同的條件下觸發相對應的事件。這個元件相當於爬蟲的「大腦」，是整個爬蟲的排程中心。

排程器(scheduler)

排程器從引擎接受請求並將它們加入佇列，以便之後引擎需要它們時提供給引擎。初始爬取的url和後續在網頁中獲取的待爬取的url.都將被放入排程器中，等待爬取，同時排程器會自動去除重複的url。如果特定的url不需要去重也可以通過設定實現，如post請求的url。

spiders

spiders是scrapy使用者編寫的用於分析響應，並提取 items 或額外跟進的 url的乙個類。每個spider負責處理乙個(一些)特定**。

在cmd中，cd進入要建立專案的檔案下

scrapy startproject examplename

examplename：為你所要建立的專案名稱

檢視是否建立成功

scrapy框架的安裝和搭建

scrapy框架的安裝

scrapy框架的安裝

安裝scrapy框架

相關推薦