scrapy爬蟲框架 三

2021-10-02 21:48:59 字數 1368 閱讀 7831

pipelines.py

from scrapy.exporters import jsonitemexporter

class qsbkspiderpipeline(object):

def __init__(self): # 初始化方法

# 使用二進位制來寫入,因此「w」-->"wb"

self.fp = open("duanzi2.json", "wb")

self.exporter = jsonitemexporter(self.fp, ensure_ascii=false, encoding='utf-8')

self.exporter.start_exporting()

def process_item(self, item, spider):

self.exporter.export_item(item)

return item

def open_spider(self, spider):

print("爬蟲開始了!")

def close_spider(self, spider):

self.exporter.finish_exporting()

self.fp.close()

print("爬蟲結束了!")

區別就在json檔案中,同時這種寫法語法更少;

from scrapy.exporters import jsonlinesitemexporter

class qsbkspiderpipeline(object):

def __init__(self): # 初始化方法

# 使用二進位制來寫入,因此「w」-->"wb"

self.fp = open("duanzi3.json", "wb")

self.exporter = jsonlinesitemexporter(self.fp, ensure_ascii=false, encoding='utf-8')

# self.exporter.start_exporting()

def process_item(self, item, spider):

self.exporter.export_item(item)

return item

def open_spider(self, spider):

print("爬蟲開始了!")

def close_spider(self, spider):

# self.exporter.finish_exporting()

self.fp.close()

print("爬蟲結束了!")

爬蟲scrapy框架學習(三)

3.示例2redisspider a.使用方法 它與示例1只有乙個地方不同,就是將start url存入redis中,如下 b.總結 該示例很簡單,只是將start url存入redis key中,就可實現分布式爬蟲,多台電腦共同完成乙個爬蟲,資料不會重複 4.示例3rediscrawlspider...

scrapy爬蟲框架

作者經過幾周的python爬蟲實踐之後,深入學習了一下scrapy這個爬蟲框架,現將一些基本知識和 總結整理一下,以備後查。2.scrapy的命令列使用 這部分網上很多部落格都有總結,不需要背,理解會用主要的命令 startproject crawl fetch list genspider.即可,...

scrapy 爬蟲框架

1.安裝 公升級pip版本 pip install upgrade pip 通過pip安裝scrapy框架 pip install scrapy 安裝成功 只執行scrapy 進行測試是否安裝成功 2.scrapy startproject 爬蟲專案名稱 執行此命令,可以生成乙個爬蟲專案 會預先生成...