scrapy原始碼解讀（一）框架總體結構

閱讀本文的前提是你已經對scrapy有了基本的認識，或是已經使用scrapy寫過資料抓取專案。

scrapy框架由多個元件組合而成，要採集的資料經過網路響應後返回流過各個元件，經過一些處理（如格式校驗，過濾去重，異常資料拋棄），最終儲存到指定的檔案或資料庫中。

下面是scrapy data flow 圖，大家應該不陌生吧。

scrapy的資料流由執行引擎控制，各個元件的執行也是有執行引擎排程驅動執行的。

（1）第1步，確定好我們要採集的**後，我們會在start_urls或者start_requests方法中構造最初的資料抓取鏈結。執行引擎engine通過讀取spiders模組的start_urls或start_requests方法的初始鏈結構造成request物件（網路請求物件）。

（2）第2步，request物件被引擎加入到scheduler排程器的排程佇列中，等待被排程。

（4）第6步，引擎獲取**的響應後，交給spiders模組的**函式去解析資料。第7步，然後引擎獲取解析後的資料。第8步，引擎將資料交給item pipelines模組處理資料，常見的處理有驗證資料格式是否符合要求，資料是否重複，儲存資料等。

以上。

最後，我們在閱讀框架原始碼的時候也要注意經常去回顧資料流的流向，有助於加深對scrapy的理解。