在雲服務建立乙個虛擬環境
```python
virtualenv envname
source 進入虛擬環境
安裝scrapyd pip install scrapyd
安裝scrapy pip install scrapy
安裝scrapy pip install requests
啟動命令 scrapyd
需要改一下配置
find -name default_scrapyd.conf 查詢檔案位置
./lib/python3.5/site-packages/scrapyd/default_scrapyd.conf
一般都是這個路徑
\lib\site-packages\scrapyd中的default_scrapyd.conf:
將bind_address = 127.0.0.1改為bind_address = 0.0.0.0
執行scrapyd 不能關閉程式 注意~~~
將工程打包
安裝pip install scrapyd-client 打包工具
cd 到專案工程目錄下 執行 scrapyd-deploy
出現 default 表示成功
進入scrapy.cfg檔案
保持退出 執行 scrapyd-deploy -l
執行打包 scrapy list
如果給爬蟲取名了 需要執行一下 scrapyd-deploy 取的名字 -p 專案名
出現 "status": "ok" 就表示打包成功了
執行下面這條語句
curl http://localhost:6800/schedule.json -d project=專案名 -d spider=爬蟲名
停止爬蟲
curl http://localhost:6800/cancel.json -d project=專案名稱 -d job=執行id
刪除scrapy專案
curl http://localhost:6800/delproject.json-d project=scrapy專案名稱
```分布式爬蟲
```python
pip install gerapy
安裝好之後 執行gerapy可以獲得提示
初始化gerapy
gerapy init
會在當前目錄下生成乙個gerapy的資料夾
生產遷移之後 gerapy migrate
cd進入 將爬蟲專案放到改目錄下
執行gerapy runserver 0.0.0.0:8000
```
python爬蟲學習(六)
1 適用 及場景 抓取需要登入才能訪問的頁面所抓資料報資訊 5.1 post url 5.2 form data ck name 13603263409 password 111 remember false ticket python 方法三 實現 import requests session ...
Spider學習筆記(一) xpath基礎操作
xpath xpath即為xml路徑語言,它是一種用來確定xml 標準通用標記語言的子集 文件中某部分位置的語言。xpath基於xml的樹狀結構,有不同型別的節點,包括元素節點,屬性節點和文字節點,提供在資料結構樹中找尋節點的能力。什麼是 xpath?xpath 使用路徑表示式在 xml 文件中進行...
爬蟲學習筆記
爬去網頁 解析資料 難點 爬蟲與反爬蟲的博弈 通用爬蟲 功能 訪問網頁 抓取資料 資料儲存 資料處理 提供檢索服務 抓取過程 給定一些起始url,放入待爬取佇列 從佇列中獲取url物件,開始爬取資料 分析網頁,獲取網頁內所有的url,入隊,繼續重複第二步 主動給搜尋引擎提交url robots協議 ...