pyspider的基本使用
pyspider的任務流程:
每個pyspider的專案對應乙個python的指令碼,該指令碼中定義了乙個handler類,它有乙個on_start方法。爬取首先呼叫on_start方法生成的最初的抓取任務,然後傳送給scheduler進行排程。
scheduler將抓取任務分發給fetcher進行抓取,fetcher執行並得到響應,隨後將響應傳送給processer。
processer處理響應並提取新的url生成新的抓取任務,然後通過訊息佇列的方式通知scheduler當前抓取任務執**況,並將新生成的抓取任務傳送給scheduler。如果生成了新的提取結果,則將其傳送到訊息佇列等待result worker處理。
scheduler接收到新的抓取任務,然後查詢資料庫,判斷其如果是新的任務或者是需要重試的任務就繼續進行排程,然後將其傳送回fetcher進行抓取。
不但重複以上工作,知道所有的任務都執行完畢,抓取結束。
抓取結束後,程式後**on_finish方法,可以定義後處理過程。
Pyspider的安裝使用
系統版本是 centos 7.2 自帶python版本2.7.5 1,更新epl源 yum y install epel release 2,安裝pip yum install python pip y 3,提示pip版本有點低,更新一下 pip install upgrade pip 4,用pip...
PySpider安裝與使用 Windows系統下
begin 安裝pip install pyspider 在windows系統好像會出現如下問題 command python setup.py egg info failed with error code 10 in解決方法 利用wheel安裝 s1 pip install wheel s5 繼...
pyspider安裝配置及使用
pyspider 於以前做的乙個垂直搜尋引擎使用的爬蟲後端。我們需要從200個站點 由於站點失效,不是都同時啦,同時有100 在跑吧 採集資料,並要求在5分鐘內將對方 的更新更新到庫中。所以,靈活的抓取控制是必須的。同時,由於100個站點,每天都可能會有站點失效或者改版,所以需要能夠監控模板失效,以...