Scrapy原始碼閱讀 Spider引數傳遞

官方文件spider引數中提到，可以使用scrapy crawl命令的-a選項向spider傳遞引數：

scrapy crawl myspider -a arg1=value1 -a arg2=value2

這些引數會被傳遞到自定義的myspider類的建構函式，並且超類spider的建構函式會將其拷貝到屬性中：

import scrapy
class
myspider
(scrapy.spider)
:    name =
'myspider'
def__init__
(self,
*args,
**kwargs)
:# kwargs['arg1'] == 'value1'
# kwargs['arg2'] == 'value2'
super()
.__init__(
*args,
**kwargs)
# self.arg1 == 'value1'
# self.arg2 == 'value2'

那麼這些命令列引數是如何被解析，並最終設定為spider的屬性的？下面通過原始碼分析這一過程。

從scrapy的命令列模組scrapy.cmdline入手，通過命令列輸入的命令由該模組中的execute()函式執行：

這裡有兩個關鍵的物件：parser是python內建模組optparse中的optionparser類的物件，用於解析命令列引數；cmd是命令類的物件（crawl命令對應scrapy.commands.crawl.command類）

該函式的幾個關鍵步驟：

例如，待解析的命令列引數為-a arg1=value1 -a arg2=value2，解析結果為opts，則opts.spargs是長度為2的列表['arg1=value1', 'arg2=value2']

(2)處理解析結果

baserunspidercommand的process_options()方法解析了opts.spargs並將其轉換為字典

因此['arg1=value1', 'arg2=value2']將變為

至此，解析命令列引數已完成，下面分析cmd.run()如何使用這些解析結果。

檢視scrapy.commands.crawl.command的run()方法的**：

引數opts為之前的解析結果，run()方法以關鍵字引數的形式將opts.spargs傳入scrapy.crawler.crawlerprocess類的crawl()方法，該方法繼承自crawlerrunner.crawl()，繼續跟蹤該方法的呼叫過程

經過crawlerrunner.crawl()->crawlerrunner._crawl()->crawler.crawl()->crawler()._create_spider()幾次呼叫後，kwargs（即之前的opts.spargs）最終被傳遞到spider.from_crawler()方法，上圖中最後一行的spidercls就是自定義的myspider類

檢視spider.from_crawler()方法的**：

可以看到，kwargs被傳入cls（即自定義的myspider類）的建構函式，如果myspider類沒有定義建構函式則繼承spider類的建構函式

檢視spider類的**，發現其建構函式中的下面這行**將kwargs中的鍵值對轉換為自身的屬性：

至此spider引數的傳遞過程已經分析清楚。

Scrapy原始碼閱讀 Spider引數傳遞

Scrapy原始碼閱讀 response處理過程

《原始碼閱讀》原始碼閱讀技巧,原始碼閱讀工具

原始碼閱讀 Glide原始碼閱讀之with方法（一）

Scrapy原始碼閱讀 Spider引數傳遞

Scrapy原始碼閱讀 response處理過程

《原始碼閱讀》原始碼閱讀技巧,原始碼閱讀工具

原始碼閱讀 Glide原始碼閱讀之with方法（一）

相關推薦