Spider學習筆記(六) 爬蟲部署

2021-08-25 05:29:38 字數 1317 閱讀 4889

在雲服務建立乙個虛擬環境

```python

virtualenv envname

source 進入虛擬環境

安裝scrapyd  pip install scrapyd

安裝scrapy  pip install scrapy

安裝scrapy  pip install requests

啟動命令 scrapyd 

需要改一下配置

find -name default_scrapyd.conf 查詢檔案位置

./lib/python3.5/site-packages/scrapyd/default_scrapyd.conf

一般都是這個路徑

\lib\site-packages\scrapyd中的default_scrapyd.conf:

將bind_address = 127.0.0.1改為bind_address = 0.0.0.0

執行scrapyd  不能關閉程式  注意~~~

將工程打包

安裝pip install scrapyd-client 打包工具

cd 到專案工程目錄下 執行 scrapyd-deploy  

出現 default 表示成功

進入scrapy.cfg檔案

保持退出  執行 scrapyd-deploy -l

執行打包  scrapy list

如果給爬蟲取名了 需要執行一下  scrapyd-deploy 取的名字 -p 專案名

出現 "status": "ok"  就表示打包成功了

執行下面這條語句

curl http://localhost:6800/schedule.json -d project=專案名 -d spider=爬蟲名

停止爬蟲    

curl http://localhost:6800/cancel.json  -d project=專案名稱 -d job=執行id

刪除scrapy專案

curl http://localhost:6800/delproject.json-d project=scrapy專案名稱

```分布式爬蟲

```python

pip install gerapy

安裝好之後 執行gerapy可以獲得提示

初始化gerapy

gerapy init

會在當前目錄下生成乙個gerapy的資料夾

生產遷移之後  gerapy migrate

cd進入 將爬蟲專案放到改目錄下

執行gerapy runserver 0.0.0.0:8000

```

python爬蟲學習(六)

1 適用 及場景 抓取需要登入才能訪問的頁面所抓資料報資訊 5.1 post url 5.2 form data ck name 13603263409 password 111 remember false ticket python 方法三 實現 import requests session ...

Spider學習筆記(一) xpath基礎操作

xpath xpath即為xml路徑語言,它是一種用來確定xml 標準通用標記語言的子集 文件中某部分位置的語言。xpath基於xml的樹狀結構,有不同型別的節點,包括元素節點,屬性節點和文字節點,提供在資料結構樹中找尋節點的能力。什麼是 xpath?xpath 使用路徑表示式在 xml 文件中進行...

爬蟲學習筆記

爬去網頁 解析資料 難點 爬蟲與反爬蟲的博弈 通用爬蟲 功能 訪問網頁 抓取資料 資料儲存 資料處理 提供檢索服務 抓取過程 給定一些起始url,放入待爬取佇列 從佇列中獲取url物件,開始爬取資料 分析網頁,獲取網頁內所有的url,入隊,繼續重複第二步 主動給搜尋引擎提交url robots協議 ...