Scrapyd的安裝與部署

2021-08-18 23:28:15 字數 3206 閱讀 8304

本文的目的在於介紹 scrapyd 的安裝與使用, 為節省篇幅,scrapy 的安裝與 scrapy爬蟲的開發在本文不予介紹,預設已經開發完成,當然,本機的python環境變數也是配置好的。筆者所用的環境如下:

系統:windows 10

python:python 3.6.3

scrapy:scrapy 1.5.0

筆者使用已經編寫好的scrapy爬蟲來介紹 scrapyd的使用。

專案名稱:announcement

爬蟲名稱:announcementspider

專案路徑:d:\code\spiderproject\announcement

下面正式開始。

一、scrapyd 的安裝。

需要安裝兩個元件: scrapyd  與  scrapyd-client。

安裝方法:

1、通過pip安裝,開啟cmd工具,分別使用下面兩個命令可以安裝 scrapyd 和 scrapyd-client:

pip install scrapyd

pip install scrapyd-client

使用pip安裝簡單方便,但是pip源上的版本並不一定是最新版本。所以建議使用第二種方式。

scrapyd:

scrapyd-client: -client

python setup.py install
即可完成安裝。 scrapyd-client的安裝類同。

安裝完成後, 可以使用 pip list 檢視是否安裝完成 , 也可以通過下面這種方式:

出現如圖的提示時,說明scrapyd 啟動成功。此時可以通過瀏覽器訪問scrapyd的web監控頁面 。

補充:scrapyd預設的配置檔案在:

d:\program files\python3.6.3\lib\site-packages\scrapyd-1.2.0-py3.6.egg\scrapyd\default_scrapyd.conf

二、爬蟲在scrapyd上的部署

1、進入爬蟲工程的根目錄:d:\code\spiderproject\announcement ,修改爬蟲工程的配置檔案 scrapyd.cfg 。把 url 前面的「#」刪除, 即使配置生效。

2、在第一步的安裝過程中,已經成功啟動了scrapyd ,下面就要把爬蟲發布到scrapyd。

開啟cmd工具,進入爬蟲專案的根目錄,筆者的根目錄是:d:\code\spiderproject\announcement ,使用以下命令進行部署

curl http://localhost:6800/schedule.json -d project=announcement -d spider=announcementspider
啟動後,可以在瀏覽器中看到爬蟲的執行狀況:

附其它的常用命令:

啟動爬蟲: 

curl http://localhost:6800/schedule.json -d project=announcement -d spider=announcementspider
終止爬蟲:

jobid可以從web頁面中獲取。

列出工程:

curl http://localhost:6800/listprojects.json
列出爬蟲:

curl http://localhost:6800/listspiders.json?project=announcement
列出job:

curl http://localhost:6800/listjobs.json?project=announcement
列出版本:

curl http://localhost:6800/listversions.json?project=announcement
新增版本(網路摘取,未驗證):

curl http://localhost:6800/addversion.json -f project=announcement -f       version=r23 -f [email protected]
刪除專案(網路摘取,未驗證):

curl http://localhost:6800/delproject.json -d project=announcement
刪除版本(網路摘取,未驗證):

刪除版本前,應先檢視版本

其實,使用 scrapy crawl命令也可以執行爬蟲, 為什麼推薦使用scrapyd來控制呢? 原因有以下幾點:

1、可以遠端啟動、停止、刪除爬蟲。也正因為此,scrapyd 是分布式爬蟲的解決方案之一。

2、可以有效避免爬蟲原始碼被別人看到。

3、有版本控制。

Scrapyd部署爬蟲

修改scrapy專案目錄下的scrapy.cfg檔案,修改如下 deploy jd spider 加上target name url http localhost 6800 將前面的 刪除 project jd project的名字,可以使用預設的,當然也可以改變 在任意目錄下的開啟終端,輸入scr...

Scrapyd部署爬蟲

修改scrapy專案目錄下的scrapy.cfg檔案,修改如下 deploy jd spider 加上target name url http localhost 6800 將前面的 刪除 project jd project的名字,可以使用預設的,當然也可以改變 在任意目錄下的開啟終端,輸入scr...

Scrapyd部署爬蟲

修改scrapy專案目錄下的scrapy.cfg檔案,修改如下 deploy jd spider 加上target name url http localhost 6800 將前面的 刪除 project jd project的名字,可以使用預設的,當然也可以改變 在任意目錄下的開啟終端,輸入scr...