scrapy框架使用一 理論部分

2022-04-16 10:16:16 字數 1682 閱讀 9601

1.scrapy框架使用步驟

快捷鍵 shift+滑鼠右鍵 可以直接在資料夾處開啟powershell,從而指令命令

1.建立scrapy專案  命令:scrapy startproject 爬蟲名 

2.明確要爬取的目標   在items.py檔案裡面定義要爬取的字段

3.製作爬蟲     命令:scrapy genspider 爬蟲檔名 '網域名稱'(真正寫爬蟲**的地方)--》要在專案的一級目錄(包含全域性配置檔案的目錄)下面使用這個命令 直接在這個檔案裡面寫spider的內容

4.管道處理  piplines.py定義本地儲存形式

5.執行專案  命令: scrapy crawl 爬蟲標識名(在spider的主要檔案裡面本例是m.py裡面)

[   6.執行專案並生成json檔案 命令 scrapy crawl 爬蟲標識名 -o *.json      (和5只用乙個就行)   ]

2.scrapy框架結構圖(每一過程都要經過scrapy engine爬蟲引擎)

執行流程圖:

scrapy框架模組功能

我們實際操作的只有spider部分,items.py部分,piplines.py部分,請求的發起,和響應都有框架控制,

我麼的工作:我們只負責控制輸入url,和直接使用爬取的結果response,以及定義結果儲存形式和儲存位置。 

spider部分是scrapy框架建立第三步生成的檔案,用來寫request請求,start_urls,name,allow_domain3個字段。

3.生成的scrapy專案檔案結構如下:以乙個例項為基準

檔案結構

專案名專案名

__py_cache__

spiders  (裡面的在scrapy第三步的命令生成的·檔案放著裡面,這個是m.py--》用來寫request引數的檔案)

__pycache__

__init__.py

m.py

scrapy.cfg  (全域性配置檔案)

music.html   (可能是piplines.py生成的用來儲存結果的檔案)   ------>>>> 不是必須有的,一般這個都是結果生成的

第一部分 1 是建立scrapy第一步生成的專案名  scrapy startproject tt

第二部分 2和5,是建立完專案就自動生成的,

第三部分 3 是中的m.py是建立scrapy的第三步生成的檔案,用來提供request的url引數,爬蟲標識名name,網域名稱allow_domain,和也是爬蟲的主檔案(主要要寫的地方)  scrapy genspider m '網域名稱'

第四部分 4 是用來存放結果,在程式執行中生成的檔案(自己建立的)

這裡配置管道的優先順序,當有多個管道時,(每個管道就是piplines.py裡面的乙個類),優先順序從0-1000,數字越小優先順序越高,這裡預設是300.

scrapy爬蟲框架(一) scrapy框架簡介

開啟命令列輸入如下命令 pip install scrapy安裝完成後,python會自動將 scrapy命令新增到環境變數中去,這時我們就可以使用 scrapy命令來建立我們的第乙個 scrapy專案了。開啟命令列,輸入如下命令 scrapy startproject yourproject這裡的...

scrapy框架基本使用

進入工程目錄 建立爬蟲檔案 編寫爬蟲檔案 執行工程 allow domains 允許的網域名稱 parse self,response scrapy工程預設是遵守robots協議的,需要在配置檔案中進行操作。基於管道 3.將在爬蟲檔案中解析的資料儲存封裝到item物件中 4.將儲存了解析資料的ite...

Scrapy框架基礎使用

1 流程框架 2 在命令列中輸入scrapy,會有scrapy常見命令引數 在命令中輸入scrapy startproject quote建立乙個叫quote的專案 cd到建立好的專案目錄中,然後執行scrapy genspider quotes quotes.toscrape.com,建立spid...