部署scrapy爬蟲

pip install scrapyd

1、新建資料夾，用來放之後的專案檔案

在部署的專案資料夾裡開啟乙個服務

cmd管理員執行:

spiderd

預設的訪問位址是 http://localhost:6800/

如果啟動成功，可以看到jobs裡面的**內容即是要部署上去的scrapy服務,現在還沒部署

2、專案目錄裡，cmd輸入 scrapyd 執行, 執行完成後新建乙個dbs空資料夾, 用來存放爬蟲專案的資料檔案

3、安裝scrapyd-client,這是乙個類似打包工具，把我們的scrapy程式打包成egg後扔給scrapyd, 這是乙個打包和部署的工具

pip install scrapy-client==1.1.0

執行命令, 安裝完成後, 在python環境的scripts中會出現scrapyd-deploy無字尾檔案, 這個scrapyd-deploy無字尾檔案是啟動檔案, 在linux系統下可以執行, 在windows下是不能執行的, 所以我們需要編輯一下使其在windows可以執行

c:\program files (x86)\python36-32\scripts中，新建乙個scrapyd-deploy.bat空白檔案，兩個內容之間切記乙個空格

@echo off
"c:\program files (x86)\python36-32\python.exe""
c:\program files (x86)\python36-32\scripts\scrapyd-deploy
" %1 %2 %3 %4 %5 %6 %7 %8 %9

4、進入到你的爬蟲專案中, 進入帶有scrapy.cfg檔案的目錄, 執行scrapyd-deploy, 測試scrapyd-deploy是否可以執行, 如果出現以下提示則正常：

unknown target: default

5、開啟爬蟲專案中的scrapy.cfg檔案, 這個檔案就是給scrapyd-deploy使用的將url這行**解掉注釋, 並且設定你的部署名稱

[settings]

default = huawei.settings

[deploy:hw] # hw 自定義

project = huawei # 專案名字

6、再次執行scrapyd-deploy -l啟動服務, 可以看到設定的名稱

7、開始打包前, 執行乙個命令 scrapy list, 這個命令執行成功說明可以打包了, 如果沒執行成功說明還有工作沒完成

注意執行 scrapy list命令的時候很有可能出現錯誤, 如果是python無法找到scrapy專案, 需要再scrapy專案裡的settings.py配置檔案裡設定成python可識別路徑

# 將當前爬蟲專案的setting.py增加

import sys

import os

base_dir = os.path.dirname(os.path.dirname(os.path.abspath(__file__)))

sys.path.insert(0, os.path.join(base_dir, 'huawei'))

8、到此我們就可以開始打包scrapy專案到scrapyd了, 用命令結合scrapy專案中的scrapy.cfg檔案設定來打包

執行打包命令: scrapyd-deploy 部署名稱 -p 專案名稱

如: scrapyd-deploy hw -p huawei

部署成功就可以去網頁中127.0.0.1:6800 檢視爬蟲執行狀態

9、執行爬蟲

命令：

示例：curl http://localhost:6800/schedule.json -dproject=huawei -d spider=hw

其他：停止爬蟲

爬蟲執行成功後,終端會給出該爬蟲的 jobid 值,表示該爬蟲,後面停止爬蟲需要提供jobid

http://localhost:6800/jobs 可以檢視jobid

curl http://localhost:6800/listjobs.json?project=huawei 可以獲取當前jobid

切記：停止後如果**需要修改，記得重新部署再執行。

刪除scrapy專案

注意：一般刪除scrapy專案，需要先執行命令停止專案下在遠行的爬蟲

curl http://localhost:6800/delproject.json -d project=scrapy專案名稱

常用介面:

排程爬蟲

# 帶上引數

取消curl http://localhost:6800/cancel.json -d project=myproject -d job=jobid

列出專案

列出版本

列出爬蟲

列出job

刪除版本

刪除專案

scrapy爬蟲部署

在開始之前先要吐槽一下csdn，昨晚懷著激動得心情寫下了我人生中的第一篇博文，今天審核通過後發現所有的都不見了，瞬間就不開心了。所以不得不又申請了的賬號，重新開始。前段時間一直研究通用爬蟲，做的過程中也是各種問題，不過好在磕磕絆絆搞出點眉目，中間學到了不少東西，感覺網際網路真的好神奇。但是接下來問題...

scrapy爬蟲框架

作者經過幾周的python爬蟲實踐之後，深入學習了一下scrapy這個爬蟲框架，現將一些基本知識和總結整理一下，以備後查。2.scrapy的命令列使用這部分網上很多部落格都有總結，不需要背，理解會用主要的命令 startproject crawl fetch list genspider.即可，...

scrapy 爬蟲框架

1.安裝公升級pip版本 pip install upgrade pip 通過pip安裝scrapy框架 pip install scrapy 安裝成功只執行scrapy 進行測試是否安裝成功 2.scrapy startproject 爬蟲專案名稱執行此命令,可以生成乙個爬蟲專案會預先生成...

部署scrapy爬蟲

scrapy爬蟲部署

scrapy爬蟲框架

scrapy 爬蟲框架

相關推薦