begin
安裝pip install pyspider
在windows系統好像會出現如下問題
command "python setup.py egg_info" failed with error code 10 in
解決方法:
利用wheel安裝
s1:pip install wheel
s5: 繼續pip install pyspider
####use
命令列輸入pyspider all
,啟動pyspider(啟動的時候可能一直卡在result_worker starting, 這個時候先等等, 然後再ctrl + c關閉, 再次 pyspider all)
接著進入**localhost:5000
,出現如下頁面
接著點選create,輸入專案名和你所要爬的**
進入專案後左邊是檢視區,可以看很多東西;右邊是**編輯區
接著講講**使用
#!/usr/bin/env python
# -*- encoding: utf-8 -*-
# created on 2018-01-13 10:23:04
# project: test
from pyspider.libs.base_handler import *
class handler(basehandler):
crawl_config =
@every(minutes=24 * 60)
def on_start(self):
self.crawl('', callback=self.index_page)#這句**的意思是爬取'',進入之後**,觸發self.index_page函式,這個時候response就是獲取到的頁面
@config(age=10 * 24 * 60 * 60)
def index_page(self, response):
for each in response.doc('a[href^="http"]').items():#這裡的response.doc語法使用的是jquery的語法,獲取屬性href字首為http的a標籤(這裡使用的css選擇器語法)
self.crawl(each.attr.href, callback=self.detail_page)#接著爬取所有獲取到的a標籤鏈結,每訪問乙個,觸發**函式self.detail_page,這個時候的response就是訪問的當前**的html頁面
@config(priority=2)
def detail_page(self, response):
#這裡返回乙個物件
return
相關資料:
這裡三篇教程都很好,可以以它為例項,
當然還有必不可少的官方文件!
Pyspider的安裝使用
系統版本是 centos 7.2 自帶python版本2.7.5 1,更新epl源 yum y install epel release 2,安裝pip yum install python pip y 3,提示pip版本有點低,更新一下 pip install upgrade pip 4,用pip...
完整pyspider安裝
通過pip install pyspider,部分win10使用者在安裝pyspider時可能會出現 command python setup.py egg info failed with error code 10 in 這個錯誤,是因為找不到pycurl導致,所以我們需要用下面的方法。一 pi...
pyspider安裝配置及使用
pyspider 於以前做的乙個垂直搜尋引擎使用的爬蟲後端。我們需要從200個站點 由於站點失效,不是都同時啦,同時有100 在跑吧 採集資料,並要求在5分鐘內將對方 的更新更新到庫中。所以,靈活的抓取控制是必須的。同時,由於100個站點,每天都可能會有站點失效或者改版,所以需要能夠監控模板失效,以...