ubuntu下scrapyd部署爬蟲專案

2022-05-05 03:21:08 字數 1588 閱讀 2698

scrapyd部署爬蟲的優勢:

1、方便監控爬蟲的實時執行狀態,也可以通過介面呼叫開發自己的監控爬蟲的頁面

2、方便統一管理,可以同時啟動或關閉多個爬蟲

3、擁有版本控制,如果爬蟲出現了不可逆的錯誤,可以通過介面恢復到之前的任意版本

注意:在安裝scrapyd之前要確保你的環境能夠執行scrapy(無論整合環境還在虛擬環境)

在這裡我使用的是虛擬環境api部署(上傳)工程,並且控制工程中的爬蟲。

1.安裝scrapyd

pip install scrapyd

12.建立乙個目錄用於存放爬蟲專案的資料檔案

3 cd到建立的目錄下,之所以到這個目錄下執行scrapyd是因為執行時候會在這個目錄下產生乙個dbs的檔案

4 執行scrapyd

目錄下會出現dbs乙個資料夾

瀏覽器訪問 127.0.0.1:6800

5 安裝scrapyd-clien 用於打包

6.拷貝scrapyd-deploy 到爬蟲專案下

7 修改專案中的scrapy.cfg 檔案

8.執行scrapyd-deploy -l 啟動服務,可以看到設定的名稱

9.開始打包前,執行乙個命令:scrapy list ,這個命令執行成功說明可以打包了,如果沒執行成功說明還有工作沒完成

返回了爬蟲名稱說明一切ok了.

10.執行打包命令: scrapyd-deploy 部署名稱 -p 專案名稱

此時說明打包成功

11.輸入開啟爬蟲命令

curl http://localhost:6800/schedule.json -d project=專案名稱 -d spider=爬蟲名稱

如果缺少curl, 那麼就 sudo apt install surl 安裝

停止爬蟲

curl http://localhost:6800/cancel.json -d project=scrapy專案名稱 -d job=執行id

刪除scrapy專案

注意:一般刪除scrapy專案,需要先執行命令停止專案下在遠行的爬蟲

curl http://localhost:6800/delproject.json -d project=scrapy專案名稱

檢視有多少個scrapy專案在api中

檢視指定的scrapy專案中有多少個爬蟲

curl http://localhost:6800/listspiders.json?project=scrapy專案名稱

總結幾個請求url

1、獲取狀態

2、獲取專案列表

3、獲取專案下已發布的爬蟲列表

4、獲取專案下已發布的爬蟲版本列表

5、獲取爬蟲執行狀態

6、啟動伺服器上某一爬蟲(必須是已發布到伺服器的爬蟲)

(post方式,data=)

7、刪除某一版本爬蟲

(post方式,data=)

8、刪除某一工程,包括該工程下的各版本爬蟲

方式,data=)

-------------------

在ubuntu中安裝並配置scrapyd

1 安裝,如果python版本預設為python3的話,就直接使用pip來安裝,否則使用pip3 pip install scrapyd2 ubuntu中安裝scrapyd過後,不會自動建立配置檔案,需要手動建立 新建 etc scrapyd scrapy.conf檔案,scrapy在執行的時候會讀...

Ubuntu系統下的nodejs環境的部署

有時候生產或者開發環境有可能是linux或者unix系統,所以有必要了解一下,在linux或者unix系統下nodejs環境的部署。為了自己以後查閱方便,所以索性記錄下來。由於nodejs原始碼的編譯依賴python和g 等第三方模組,所以在安裝之前要檢查我們的系統是否安裝了這些依賴,檢測方法很簡單...

Ubuntu下OpenLDAP伺服器的部署步驟

1 安裝zlib wget configure shared make make install 2 安裝openssl 不要解除安裝系統自帶的openssl,否則很多服務都起不來 wget config shared 注意這裡是用.config 會安裝到 usr local ssl make ma...