scrapyd的安裝及使用(windows)
一、安裝scrapyd:
注:首先確保以下的依賴包已經安裝完畢(這裡不說明下麵包如何安裝)
python 2.6 or above
twisted 8.0 or above
scrapy 0.17 or above
linux的用apt-get安裝,其他用 pip install scrapyd 安裝即可。
注:這裡補充一點,如果在linux下使用apt-get安裝失敗,也可以使用pip install安裝,同時配合supervisor使用。要注意一點的是在supervisor的配置下執行scrapyd要寫指令的絕對路徑,比如: /usr/bin/scrapyd。
圖1 scrapyd成功啟動的圖示
scrapyd的配置:
/etc/scrapyd/scrapyd.conf (unix)
python安裝目錄下的 lib\site-packages\scrapyd\default_scrapyd.conf (windows) 這個並非官方說明的路徑。
http_port 監聽埠
bind_address 監聽ip位址
max_proc 最大程序數(為0指開啟等同於cpu的數目的程序)
max_proc_per_cpu 每個cpu開啟的程序數,預設:4
debug 是否開啟除錯模式
eggs_dir 儲存工程egg檔案的目錄
dbs_dir 儲存工程資料庫的目錄
logs_dir 儲存日誌的目錄(要關閉日誌則讓這個配置為空)
沒錯,安裝並執行scrapyd就這麼簡單。
二、安裝setuptools:
三、部署工程:
1.建立乙個scrapy工程,工程下會有乙個叫scrapy.cfg的檔案,檔案的內容如下:
# automatically created by: scrapy startproject
## for more information about the [deploy] section see:
# [settings]
default = market_spider.settings
[deploy:demo] # demo是指這個deploy的名稱,自己命名,可以多個。(後面有用到)
username = demo # 新建的時候沒有這個的,自己新增的
password = 123456 # 新建的時候沒有這個的,自己新增的
project = market_spider # 工程的名稱
2.啟動scrapyd:
![在這裡插入描述](
3.部署專案:
部署專案有兩種方法:
第一種:通過addversion.json的請求部署,執行下面的請求指令就可以了,其中的引數根據實際工程修改。
第二種:通過scrapyd-deploy部署,要求裝乙個scrapyd-client,實際上就是借用工具執行第一種方式而已。
4.安裝並使用scrapyd-deploy部署專案:
安裝scrapyd-deploy
(2) 在d:\python27\scripts下新建檔案scrapyd-deploy.bat然後寫入以下內容:
@echo off
"d:\python27\python.exe" "d:\python27\scripts\scrapyd-deploy" %1 %2 %3 %4 %5 %6 %7 %8 %9
使用scrapyd-deploy
在工程目錄下執行部署指令,部署的指令格式為:scrapyd-deploy -p * target就是配置檔案的deploy的名稱,針對上面的配置就是demo
* project如果不輸就是配置檔案中的project
本例部署的指令:scrapy-deploy demo
1![在這裡插入描述](
圖3 部署工程成功
1部署完成之後,在步驟1中所建立的python工程裡可以看到多了乙個eggs的資料夾,以及裡面的一些內容,裡面所存放的就是scrapyd-deploy的工程打包成.egg的檔案,可以看到version就是檔案的名稱,每當我們執行一次scrapyd-deploy就會生成乙個新的egg,示例如圖4所示:
![在這裡插入描述](
圖4 部署完成後的資料夾
1四、執行spider:
![在這裡插入描述](
圖5 scrapyd官方文件的api
1在我的scrapy工程裡有乙個叫newsspider 的spider,現在就可以用api中的請求去呼叫或者執行爬蟲了,這裡以schedule.json為示例:
傳送以下請求給scrapyd,讓它幫我啟動newsspider這個spider,詳細的引數意義看文件最清楚,在這裡不累贅。
執行的返回值如下圖所示,返回ok表示成功,可以自主驗證爬蟲是不是執行了。
![在這裡插入描述](
圖6 執行spder成功
1五、備註:
執行scrapyd-deploy和scrapyd都會產生一些資料夾以及相關的檔案,包括生成egg的過程檔案和日誌檔案等等。
本人對原理並未了解很透徹,請大神多多指教,另文章如有錯漏請不吝告知!多謝!
43 Scrapyd的安裝及使用
scrapyd scrapyd 1.2.0 documentation scrapyd是乙個用於部署和執行scrapy爬蟲的程式,它允許你通過json api來部署爬蟲專案和控制爬蟲執行,scrapyd是乙個守護程序,監聽爬蟲的執行和請求,然後啟動程序來執行它們 pip install scrapy...
python安裝mysql及連線測試(win)
參考 安裝 測試 首先我的python版本是3.7 python scripts 目錄加到widnows的path環境變數 cmd中執行pip install pymysql 測試 import pymysql 不報錯即成功 然後我的ide中寫了測試 import pymysql db pymysq...
Scrapyd的安裝與部署
本文的目的在於介紹 scrapyd 的安裝與使用,為節省篇幅,scrapy 的安裝與 scrapy爬蟲的開發在本文不予介紹,預設已經開發完成,當然,本機的python環境變數也是配置好的。筆者所用的環境如下 系統 windows 10 python python 3.6.3 scrapy scrap...