其流程可以描述如下:
爬蟲提取url位址,組裝成request物件---->爬蟲中介軟體--->引擎--->排程器
爬蟲提取資料--->引擎--->管道
管道進行資料的處理和儲存
注意:
命令:scrapy startproject +《專案名
示例:scrapy startproject myspider
生成的目錄和檔案結果如下:
settings.py
中的重點欄位和內涵
命令:scrapy genspider +《爬蟲名 + 《允許爬取的域
生成的目錄和檔案結果如下:
完善spider即通過方法進行資料的提取等操做:
注意:response.xpath
方法的返回結果是乙個類似list的型別,其中包含的是selector物件,操作和列表一樣,但是有一些額外的方法
extract()
返回乙個包含有字串的列表
extract_first()
返回列表中的第乙個字串,列表為空沒有返回none
spider中的parse方法必須有
需要抓取的url位址必須屬於allowed_domains,但是start_urls中的url位址沒有這個限制
啟動爬蟲的時候注意啟動的位置,是在專案路徑下啟動
為什麼要使用yield?
注意:
pipeline在settings中能夠開啟多個,為什麼需要開啟多個?
pipeline使用注意點
Scrapy 安裝及使用
目前只支援python2 pip install scrapy公升級scrapy pip install upgrade scrapy和scrapy打交道時,你所遵循得最通用的流程是ur im流程。進入你想儲存專案的目錄 scrapy startproject tutorialtutorial sc...
scrapy基本介紹及執行原理
1 scrapy是用純python實現乙個為了爬取 資料 提取結構性資料而編寫的應用框架,用途廣泛。2 使用者只需要定製開發的幾個模組就能輕鬆實現乙個爬蟲,用來抓取網頁內容 1 scrapy engine 引擎 負責spider itempipline scheduler中間的通訊,訊號 資料傳遞等...
scrapy介紹及原始碼分析
一 簡介 scrapy基於事件驅動網路框架 twisted 編寫。因此,scrapy基於併發性考慮由非阻塞 即非同步 的實現。官方文件 最重要的是理解 data flow。別人的部落格 二 scrapy調優 1 提高併發能力 1 增加併發 concurrent requests 1002 降低log...