scrapy執行過程
(1)建立爬蟲專案
scrapy startproject 專案名稱
(2)建立爬蟲檔案
scrapy genspider 檔名稱 網域名稱
(3)settings.py設定檔案中:
user_ageng = ua偽裝
robotstxt_obey =
false
log_level =
'error'
(5)爬蟲檔案中解析資料,例如:
店鋪資訊 = 響應物件.xpath(
'//div[@class="abc"]/text()'
).extract(
)#不要忘記
yield item
(4)items.py檔案中定義屬性,例如:
店鋪資訊 = scrapy.field(
)店鋪位址 = scrapy.field(
)(5)爬蟲檔案中匯入類,將item交給管道,例如:
from c001.items import c001item
item = c001item(
)item[
'店鋪名稱'
]= 店鋪名稱
yield item
(6)管道檔案中pipelines.py中持久化儲存,例如
店鋪資訊 = item[
'店鋪資訊'
]資料 = pd.dataframe(
)資料.to_csv(
)return item
(7)在設定中開始管道
(7)在設定中開始管道
(8)執行
scrapy crawl 爬蟲檔名稱
scrapy 執行邏輯
爬蟲的步驟 傳送請求獲得響應 解析並提取資料 儲存資料 我們沿用這個樸素的邏輯去理解scrapy 一 傳送請求獲得響應 1 爬蟲傳送請求request到引擎 2 引擎將請求request傳遞給排程器scheduler佇列 3 排程器scheduler從請求佇列中向引擎輸送request proces...
Scrapy 執行多個爬蟲
本文所使用的 scrapy 版本 scrapy 1.8.0 多個爬蟲 所有爬蟲 顯然,這兩種情況並不一定是等同的。假設當前專案下有 3 個爬蟲,分別名為 route dining experience,並在專案目錄下建立乙個main.py檔案,下面的示例 都寫在這個檔案中,專案執行時,在命令列下執行...
scrapy的安裝執行
方式一 直接在pycharm裡面的settigs projectinterpreter下面新增scrapy 方式二 方式一不可行,手動新增scrapy框架 第一步 安裝好conda和python 第二步 將conda配置到環境變數 第三步 在cmd安裝 conda install c conda f...