1. 環境準備
前置環境部署
在開始部署前,我們需要做一些前置準備 。
yum 更新
yum update -y
安裝開發編譯工具
yum install gcc gcc-c++
-y
安裝依賴庫
yum install python-pip python-devel python-distribute libxml2 libxml2-devel python-lxml libxslt libxslt-devel openssl openssl-devel -y
公升級pip
pip install --upgrade pip
2. 部署 mariadb
由於 centos 7 中 mysql 資料庫已從預設的程式列表中移除,我們使用 mariadb 代替。
安裝 mariadb
yum install mariadb-server mariadb -y
啟動 mariadb 服務
systemctl start mariadb
設定 root 密碼
預設的root使用者密碼為空,你可以使用以下命令來建立 root 使用者的密碼:
(該步驟也可以跳過,password 後的 ugw9ogoe 可以改為任何你希望設定的密碼)
mysqladmin -u root password "ugw9ogoe"
檢查是否安裝成功
現在你可以嘗試通過以下命令來連線到 mysql 伺服器
mysql -u root -p
然後輸入您剛才設定的密碼 ( 預設:ugw9ogoe ),如果一切正常,您應該可以在命令列看到以 mariadb [(none)]> 或 mysql> 開頭的提示了,說明連線成功。
此時輸入 show databases; 並回車,應該可以看到類似下面這樣的輸出,說明一切正常。
mysql> show databases;+--
----
----
+| database |+--
----
----
+| mysql |
| test |+--
----
----
+2 rows in set (
0.13 sec)
完成後,可以通過快捷鍵 ctrl+c 或命令列鍵入 exit 來退出,進入下一步。
3. 部署 redis
wget http:
解壓安裝包
tar -xzvf redis-stable.tar.gz
移動解壓包到 /usr/local 內
mv redis-stable /usr/local/redis
編譯安裝
cd /usr/local/redis
make
make install
設定 redis 配置
設定配置檔案路徑
mkdir -p /etc/redis
cp /usr/local/redis/redis.conf /etc/redis/redis.conf
修改 /etc/redis/redis.conf 檔案的 daemonize 配置項為如下:
daemonize yes
啟動 redis 服務
/usr/local/bin/redis-server /etc/redis/redis.con
4.部署 pyspider
安裝依賴
pip install --upgrade chardet
easy_install mysql-connector==
2.1.3
easy_install redis
pip install jinja2==
2.10
安裝 pyspider
pip install pyspider
配置 pyspider
首先建立配置目錄
mkdir /etc/pyspider
然後 /etc/pyspider 目錄下建立 pyspider.conf.json,參考下面的內容。
具體配置的說明文件請參考 官方文件
示例**:/etc/pyspider/pyspider.conf.json
}
其中 mysql 配置中的 root 為您 mysql 的使用者名稱, root: 後面的 ugw9ogoe 為您剛設定的密碼。
webui 配置中的 username 及 password 為您訪問 webui 時候需要的使用者名稱,你也可以不設定使用者名稱密碼,直接將 need-auth 設為 false 即可。
啟動服務
pyspider -c /etc/pyspider/pyspider.conf.json
如果一切正常,現在訪問 您應該可以看到 pyspider dashboard 的首頁了。
服務能夠正常啟動後,我們需要讓它能夠在後台執行,您可以通過以下命令讓服務在後台執行
nohup pyspider -c /etc/pyspider/pyspider.conf.json &
訪問服務
此時您可以訪問 使用您的爬蟲來蒐集資料了,具體 pyspider 爬蟲指令碼的編寫及使用教程可以參考 網上資料。
大功告成
恭喜您已經完成了搭建 pyspider 爬蟲服務的學習,您可以留用或者購買 linux 版本的 cvm 繼續學習。
pyspider爬蟲框架 增量爬蟲
pyspider 爬蟲框架,基於puquery實現的.優勢 1.基於多執行緒非同步的任務排程方式 可以實現爬蟲的高併發爬取,注意使用 2.它提供了乙個wedui的爬蟲任務管理介面,可以實現爬蟲的停止,啟動,除錯,支援定時爬取任務 3.簡潔 4.支援動態 的爬取 requests urllib只能爬取...
pyspider 搭建日誌
1 安裝pip 略2 安裝phantomjs 必要條件 sudo yum y install gcc gcc c make flex bison gperf ruby openssl devel freetype devel fontconfig devel libicu devel sqlite ...
python增量爬蟲pyspider
1.為了能夠將爬取到的資料存入本地資料庫,現在本地建立乙個mysql資料庫example,然後 在資料庫中建立一張 test,示例如下 drop table if exists test create table douban db id int 11 not null auto increment...