Spider學習筆記（六）爬蟲部署

在雲服務建立乙個虛擬環境

```python

virtualenv envname

source 進入虛擬環境

安裝scrapyd pip install scrapyd

安裝scrapy pip install scrapy

安裝scrapy pip install requests

啟動命令 scrapyd

需要改一下配置

find -name default_scrapyd.conf 查詢檔案位置

./lib/python3.5/site-packages/scrapyd/default_scrapyd.conf

一般都是這個路徑

\lib\site-packages\scrapyd中的default_scrapyd.conf：

將bind_address = 127.0.0.1改為bind_address = 0.0.0.0

執行scrapyd 不能關閉程式注意~~~

將工程打包

安裝pip install scrapyd-client 打包工具

cd 到專案工程目錄下執行 scrapyd-deploy

出現 default 表示成功

進入scrapy.cfg檔案

保持退出執行 scrapyd-deploy -l

執行打包 scrapy list

如果給爬蟲取名了需要執行一下 scrapyd-deploy 取的名字 -p 專案名

出現 "status": "ok" 就表示打包成功了

執行下面這條語句

curl http://localhost:6800/schedule.json -d project=專案名 -d spider=爬蟲名

停止爬蟲

curl http://localhost:6800/cancel.json -d project=專案名稱 -d job=執行id

刪除scrapy專案

curl http://localhost:6800/delproject.json-d project=scrapy專案名稱

```分布式爬蟲

```python

pip install gerapy

安裝好之後執行gerapy可以獲得提示

初始化gerapy

gerapy init

會在當前目錄下生成乙個gerapy的資料夾

生產遷移之後 gerapy migrate

cd進入將爬蟲專案放到改目錄下

執行gerapy runserver 0.0.0.0:8000

```

python爬蟲學習（六）

1 適用及場景抓取需要登入才能訪問的頁面所抓資料報資訊 5.1 post url 5.2 form data ck name 13603263409 password 111 remember false ticket python 方法三實現 import requests session ...

Spider學習筆記（一） xpath基礎操作

xpath xpath即為xml路徑語言，它是一種用來確定xml 標準通用標記語言的子集文件中某部分位置的語言。xpath基於xml的樹狀結構，有不同型別的節點，包括元素節點，屬性節點和文字節點，提供在資料結構樹中找尋節點的能力。什麼是 xpath?xpath 使用路徑表示式在 xml 文件中進行...

爬蟲學習筆記

爬去網頁解析資料難點爬蟲與反爬蟲的博弈通用爬蟲功能訪問網頁抓取資料資料儲存資料處理提供檢索服務抓取過程給定一些起始url，放入待爬取佇列從佇列中獲取url物件，開始爬取資料分析網頁，獲取網頁內所有的url，入隊，繼續重複第二步主動給搜尋引擎提交url robots協議 ...

Spider學習筆記（六） 爬蟲部署

python爬蟲學習（六）

Spider學習筆記（一） xpath基礎操作

爬蟲學習筆記

相關推薦

Spider學習筆記（六）爬蟲部署