pyspider **於以前做的乙個垂直搜尋引擎使用的爬蟲後端。我們需要從200個站點(由於站點失效,不是都同時啦,同時有100+在跑吧)採集資料,並要求在5分鐘內將對方**的更新更新到庫中。
所以,靈活的抓取控制是必須的。同時,由於100個站點,每天都可能會有站點失效或者改版,所以需要能夠監控模板失效,以及檢視抓取狀態。
為了達到5分鐘更新,我們使用抓取最近更新頁上面的最後更新時間,以此來判斷頁面是否需要再次抓取。
可見,這個專案對於爬蟲的監控和排程要求是非常高的。
阿里雲2018雙11雲服務只需99.5元首先需要使用 python ,至於什麼版本,按個人經驗來說,當然是推薦 python 2.7 了!!~因為本人曾經裝的時候,被 3 坑了好久,最後不得不回退 python 才安裝成功。還有,就是最好使用 32 位的 python。別問我為什麼~~1核2g記憶體,¥99.5/年
2核4g記憶體,¥545.00/1年
2核4g記憶體,¥927.00/2年
2核4g記憶體,¥1227.00/3年
2核8g記憶體,¥2070.00/3年
直達入口:
最新的 pyspider 依賴包中有對 pip 版本有需求的,所以需要使用如下命令列來更新 pip 版本:
python -m pip install --upgrade pip
還依賴 phantomjs
# 安裝命令
pip install pyspider
在 windows 上安裝時,會發現如下錯誤:
pip install lxml.whl
如果遇到其它錯誤一樣處理。pyspider 已經完成了大部分功能,基本上是不用配置的,當然你需要的是建立目錄,不然會跑到預設目錄,到時你還得找裝到。
在你所建的目錄,直接使用 pyspider 啟動即可。
提示如下:
[w 161130 18:01:07 run:403] phantomjs not found, continue running without it.
[i 161130 18:01:10 result_worker:49] result_worker starting...
[i 161130 18:01:10 processor:208] processor starting...
[i 161130 18:01:11 tornado_fetcher:508] fetcher starting...
c:\python27\lib\site-packages\flask\exthook.py:71: extdeprecationwarning: import
ing flask.ext.login is deprecated, use flask_login instead.
.format(x=modname), extdeprecationwarning
[i 161130 18:01:13 scheduler:569] scheduler starting...
[i 161130 18:01:13 scheduler:508] in 5m: new:0,success:0,retry:0,failed:0
[i 161130 18:01:14 scheduler:683] scheduler.xmlrpc listening on 127.0.0.1:23333
[i 161130 18:02:13 scheduler:508] in 5m: new:0,success:0,retry:0,failed:0
[i 161130 18:03:13 scheduler:508] in 5m: new:0,success:0,retry:0,failed:0
這時,你在瀏覽器裡輸入 http://localhost:5000/ 也就能看到執行效果了。 linux nginx安裝配置及使用
準備工作 yum install gcc gcc cpp gcc c 安裝pcre 讓nginx支援rewrite tar zxvf pcre 8.01.tar.gz cd pcre 8.01 configure make make install 安裝及啟用 啟動 usr local nginx ...
Nginx安裝 配置及使用總結
nginx的安裝 配置及使用總結 nginx是乙個高效能的http及反向 伺服器,也是imap pop3 smtp 伺服器。在高併發情況下,nginx突出了它的高效能和穩定性,對比同類伺服器技術而言,它是很多國內大中型 首選的伺服器環境。和往常一樣,在總結一門新技術時都會先從它的環境配置及使用開始的...
nginx的安裝配置及使用
一.nginx安裝 cent os 7.0 1.nginx所需的依賴環境 yum install gcc c 2 pcre pcre devel安裝 perl compatible regular expressions 是乙個perl庫,包括perl相容的正規表示式。nginx的http模組使用p...