scrapyd部署爬蟲的優勢:
1、方便監控爬蟲的實時執行狀態,也可以通過介面呼叫開發自己的監控爬蟲的頁面
2、方便統一管理,可以同時啟動或關閉多個爬蟲
3、擁有版本控制,如果爬蟲出現了不可逆的錯誤,可以通過介面恢復到之前的任意版本
注意:在安裝scrapyd之前要確保你的環境能夠執行scrapy(無論整合環境還在虛擬環境)
在這裡我使用的是虛擬環境api部署(上傳)工程,並且控制工程中的爬蟲。
1.安裝scrapyd
pip install scrapyd
12.建立乙個目錄用於存放爬蟲專案的資料檔案
3 cd到建立的目錄下,之所以到這個目錄下執行scrapyd是因為執行時候會在這個目錄下產生乙個dbs的檔案
4 執行scrapyd
目錄下會出現dbs乙個資料夾
瀏覽器訪問 127.0.0.1:6800
5 安裝scrapyd-clien 用於打包
6.拷貝scrapyd-deploy 到爬蟲專案下
7 修改專案中的scrapy.cfg 檔案
8.執行scrapyd-deploy -l 啟動服務,可以看到設定的名稱
9.開始打包前,執行乙個命令:scrapy list ,這個命令執行成功說明可以打包了,如果沒執行成功說明還有工作沒完成
返回了爬蟲名稱說明一切ok了.
10.執行打包命令: scrapyd-deploy 部署名稱 -p 專案名稱
此時說明打包成功
11.輸入開啟爬蟲命令
curl http://localhost:6800/schedule.json -d project=專案名稱 -d spider=爬蟲名稱
如果缺少curl, 那麼就 sudo apt install surl 安裝
停止爬蟲
curl http://localhost:6800/cancel.json -d project=scrapy專案名稱 -d job=執行id
刪除scrapy專案
注意:一般刪除scrapy專案,需要先執行命令停止專案下在遠行的爬蟲
curl http://localhost:6800/delproject.json -d project=scrapy專案名稱
檢視有多少個scrapy專案在api中
檢視指定的scrapy專案中有多少個爬蟲
curl http://localhost:6800/listspiders.json?project=scrapy專案名稱
總結幾個請求url
1、獲取狀態
2、獲取專案列表
3、獲取專案下已發布的爬蟲列表
4、獲取專案下已發布的爬蟲版本列表
5、獲取爬蟲執行狀態
6、啟動伺服器上某一爬蟲(必須是已發布到伺服器的爬蟲)
(post方式,data=)
7、刪除某一版本爬蟲
(post方式,data=)
8、刪除某一工程,包括該工程下的各版本爬蟲
方式,data=)
-------------------
在ubuntu中安裝並配置scrapyd
1 安裝,如果python版本預設為python3的話,就直接使用pip來安裝,否則使用pip3 pip install scrapyd2 ubuntu中安裝scrapyd過後,不會自動建立配置檔案,需要手動建立 新建 etc scrapyd scrapy.conf檔案,scrapy在執行的時候會讀...
Ubuntu系統下的nodejs環境的部署
有時候生產或者開發環境有可能是linux或者unix系統,所以有必要了解一下,在linux或者unix系統下nodejs環境的部署。為了自己以後查閱方便,所以索性記錄下來。由於nodejs原始碼的編譯依賴python和g 等第三方模組,所以在安裝之前要檢查我們的系統是否安裝了這些依賴,檢測方法很簡單...
Ubuntu下OpenLDAP伺服器的部署步驟
1 安裝zlib wget configure shared make make install 2 安裝openssl 不要解除安裝系統自帶的openssl,否則很多服務都起不來 wget config shared 注意這裡是用.config 會安裝到 usr local ssl make ma...