pyspider安裝配置及使用

2021-08-30 19:27:04 字數 1999 閱讀 1229

pyspider **於以前做的乙個垂直搜尋引擎使用的爬蟲後端。我們需要從200個站點(由於站點失效,不是都同時啦,同時有100+在跑吧)採集資料,並要求在5分鐘內將對方**的更新更新到庫中。

所以,靈活的抓取控制是必須的。同時,由於100個站點,每天都可能會有站點失效或者改版,所以需要能夠監控模板失效,以及檢視抓取狀態。

為了達到5分鐘更新,我們使用抓取最近更新頁上面的最後更新時間,以此來判斷頁面是否需要再次抓取。

可見,這個專案對於爬蟲的監控和排程要求是非常高的。

阿里雲2018雙11雲服務只需99.5元

1核2g記憶體,¥99.5/年

2核4g記憶體,¥545.00/1年

2核4g記憶體,¥927.00/2年

2核4g記憶體,¥1227.00/3年

2核8g記憶體,¥2070.00/3年

直達入口:

首先需要使用 python ,至於什麼版本,按個人經驗來說,當然是推薦 python 2.7 了!!~因為本人曾經裝的時候,被 3 坑了好久,最後不得不回退 python 才安裝成功。還有,就是最好使用 32 位的 python。別問我為什麼~~

最新的 pyspider 依賴包中有對 pip 版本有需求的,所以需要使用如下命令列來更新 pip 版本:

python -m pip install --upgrade pip
還依賴 phantomjs

# 安裝命令

pip install pyspider

在 windows 上安裝時,會發現如下錯誤:

pip install lxml.whl
如果遇到其它錯誤一樣處理。

pyspider 已經完成了大部分功能,基本上是不用配置的,當然你需要的是建立目錄,不然會跑到預設目錄,到時你還得找裝到。

在你所建的目錄,直接使用 pyspider 啟動即可。

提示如下:

[w 161130 18:01:07 run:403] phantomjs not found, continue running without it.

[i 161130 18:01:10 result_worker:49] result_worker starting...

[i 161130 18:01:10 processor:208] processor starting...

[i 161130 18:01:11 tornado_fetcher:508] fetcher starting...

c:\python27\lib\site-packages\flask\exthook.py:71: extdeprecationwarning: import

ing flask.ext.login is deprecated, use flask_login instead.

.format(x=modname), extdeprecationwarning

[i 161130 18:01:13 scheduler:569] scheduler starting...

[i 161130 18:01:13 scheduler:508] in 5m: new:0,success:0,retry:0,failed:0

[i 161130 18:01:14 scheduler:683] scheduler.xmlrpc listening on 127.0.0.1:23333

[i 161130 18:02:13 scheduler:508] in 5m: new:0,success:0,retry:0,failed:0

[i 161130 18:03:13 scheduler:508] in 5m: new:0,success:0,retry:0,failed:0

這時,你在瀏覽器裡輸入 http://localhost:5000/ 也就能看到執行效果了。

linux nginx安裝配置及使用

準備工作 yum install gcc gcc cpp gcc c 安裝pcre 讓nginx支援rewrite tar zxvf pcre 8.01.tar.gz cd pcre 8.01 configure make make install 安裝及啟用 啟動 usr local nginx ...

Nginx安裝 配置及使用總結

nginx的安裝 配置及使用總結 nginx是乙個高效能的http及反向 伺服器,也是imap pop3 smtp 伺服器。在高併發情況下,nginx突出了它的高效能和穩定性,對比同類伺服器技術而言,它是很多國內大中型 首選的伺服器環境。和往常一樣,在總結一門新技術時都會先從它的環境配置及使用開始的...

nginx的安裝配置及使用

一.nginx安裝 cent os 7.0 1.nginx所需的依賴環境 yum install gcc c 2 pcre pcre devel安裝 perl compatible regular expressions 是乙個perl庫,包括perl相容的正規表示式。nginx的http模組使用p...