python爬蟲框架Pyspider初次接觸

2022-07-17 01:39:07 字數 1222 閱讀 9162

我分別在linux、window上都安裝過pyspider,window上貌似有問題。以下是我改寫的一段**:

#

!/usr/bin/env python

#-*- encoding: utf-8 -*-

#created on 2018-04-18 07:17:21

#project: emeraldinsight

from pyspider.libs.base_handler import *

class

handler(basehandler):

crawl_config =

@every(minutes=24 * 60)

defon_start(self):

self.crawl(

'', callback=self.index_page)

@config(age=10 * 24 * 60 * 60)

defindex_page(self, response):

for each in response.doc('

.hlfld-title a

').items():

self.crawl(each.attr.href, callback=self.list_page)

@config(priority=2)

deflist_page(self, response):

downloadurl='

'detailurl=response.url

print

''+detailurl

doi=detailurl.replace('

',''

)

print

'doi:

'+doi

postdata=

self.crawl(downloadurl,callback=self.detail_page,method='

post

',data=postdata)

@config(priority=2)

defdetail_page(self, response):

print response.text

這個簡單的例子中包含有get、post請求以及對文件解析,它採用的是pquery和jquery的語法類似,所以上手特別快,幾乎不用學習。

此框架提供了任務排程、佇列、文件解析、web端圖形化的介面等。

Python爬蟲框架

一 u know!二 scrapy入門教程 三 網路爬蟲之scrapy框架詳解 四 scrapy編寫步驟 詳情見二 scrapy入門教程 1 mkdir乙個爬蟲資料夾 例 mkdir home zy pachong pa test 10 28 2 在 home zy pachong pa test ...

Python爬蟲 scrapy框架

開源的,對平台的爬蟲框架 舊版本 需要預先定義所需欄位 class myitem scrapy.item url scrapy.field 再將所需欄位填充 class myspier scrapy.spider defparse self,response return sudo apt inst...

python爬蟲scrapy框架

安裝 pip install scrapy startproject 建立乙個新專案 genspider 根據模板生成乙個新爬蟲 crawl 執行爬蟲 shell 啟動互動式抓取控制台 進入專案目錄 scrapy startproject crawlertest project name cd cr...