1.scrapy框架使用步驟
快捷鍵 shift+滑鼠右鍵 可以直接在資料夾處開啟powershell,從而指令命令
1.建立scrapy專案 命令:scrapy startproject 爬蟲名
2.明確要爬取的目標 在items.py檔案裡面定義要爬取的字段
3.製作爬蟲 命令:scrapy genspider 爬蟲檔名 '網域名稱'(真正寫爬蟲**的地方)--》要在專案的一級目錄(包含全域性配置檔案的目錄)下面使用這個命令 直接在這個檔案裡面寫spider的內容
4.管道處理 piplines.py定義本地儲存形式
5.執行專案 命令: scrapy crawl 爬蟲標識名(在spider的主要檔案裡面本例是m.py裡面)
[ 6.執行專案並生成json檔案 命令 scrapy crawl 爬蟲標識名 -o *.json (和5只用乙個就行) ]
2.scrapy框架結構圖(每一過程都要經過scrapy engine爬蟲引擎)
執行流程圖:
scrapy框架模組功能
我們實際操作的只有spider部分,items.py部分,piplines.py部分,請求的發起,和響應都有框架控制,
我麼的工作:我們只負責控制輸入url,和直接使用爬取的結果response,以及定義結果儲存形式和儲存位置。
spider部分是scrapy框架建立第三步生成的檔案,用來寫request請求,start_urls,name,allow_domain3個字段。
3.生成的scrapy專案檔案結構如下:以乙個例項為基準
檔案結構
專案名專案名
__py_cache__
spiders (裡面的在scrapy第三步的命令生成的·檔案放著裡面,這個是m.py--》用來寫request引數的檔案)
__pycache__
__init__.py
m.py
scrapy.cfg (全域性配置檔案)
music.html (可能是piplines.py生成的用來儲存結果的檔案) ------>>>> 不是必須有的,一般這個都是結果生成的
第一部分 1 是建立scrapy第一步生成的專案名 scrapy startproject tt
第二部分 2和5,是建立完專案就自動生成的,
第三部分 3 是中的m.py是建立scrapy的第三步生成的檔案,用來提供request的url引數,爬蟲標識名name,網域名稱allow_domain,和也是爬蟲的主檔案(主要要寫的地方) scrapy genspider m '網域名稱'
第四部分 4 是用來存放結果,在程式執行中生成的檔案(自己建立的)
這裡配置管道的優先順序,當有多個管道時,(每個管道就是piplines.py裡面的乙個類),優先順序從0-1000,數字越小優先順序越高,這裡預設是300.
scrapy爬蟲框架(一) scrapy框架簡介
開啟命令列輸入如下命令 pip install scrapy安裝完成後,python會自動將 scrapy命令新增到環境變數中去,這時我們就可以使用 scrapy命令來建立我們的第乙個 scrapy專案了。開啟命令列,輸入如下命令 scrapy startproject yourproject這裡的...
scrapy框架基本使用
進入工程目錄 建立爬蟲檔案 編寫爬蟲檔案 執行工程 allow domains 允許的網域名稱 parse self,response scrapy工程預設是遵守robots協議的,需要在配置檔案中進行操作。基於管道 3.將在爬蟲檔案中解析的資料儲存封裝到item物件中 4.將儲存了解析資料的ite...
Scrapy框架基礎使用
1 流程框架 2 在命令列中輸入scrapy,會有scrapy常見命令引數 在命令中輸入scrapy startproject quote建立乙個叫quote的專案 cd到建立好的專案目錄中,然後執行scrapy genspider quotes quotes.toscrape.com,建立spid...