scrapy框架 的快速入門

2021-09-29 04:44:43 字數 2080 閱讀 9810

首先安裝scrapy cmd ——>輸入pip install scrapy

window 下還需安裝pypiwin32  pip install pypiwin32

pycharm 不能直接建立scrapy專案

在你的專案工作目錄或者包目錄下, cmd ——> 輸入 scrapy startproject [專案名稱]

建立好後,會生成這樣的目錄

我是新建了一些檔案,不要見怪,後面會講到,

items.py自定義資料型別,不需要使用字典的方式去使用

middlewares.py是中介軟體

pipelines.py處理爬取的資料

一些設定建議配置一下,在setting.py裡面

user-agent可以去瀏覽器中copy乙個,

新建乙個爬蟲 在新建專案目錄下cmd輸入scrapy genspider [檔名(注意不能與專案名一樣)] [允許訪問的網域名稱]

如 scrapy genspider cyjy_spider "cyjy.com"

在spiders包下面生成了乙個cyjy_spider.py的檔案

爬蟲**就在這個檔案裡寫

在cyjy_spider.py中

# -*- coding: utf-8 -*-

import scrapy

class cyjyspiderspider(scrapy.spider):

name = 'cyjy_spider'

allowed_domains = ['cyjy.com']

start_urls = ['']

def parse(self, response):

print("*"*100)

content_logo_img = response.xpath("//div[@class='cyjt_logo fl']/a/img/@src").get()

content_logo_img =

print("*"*100)

yield content_logo_img

在pipelines.py中

# -*- coding: utf-8 -*-

# define your item pipelines here

## don't forget to add your pipeline to the item_pipelines setting

# see:

import json

class cyjypipeline(object):

def __init__(self):

self.fp = open("img_content.json","w",encoding="utf-8")

def open_spider(self,spider):

print("爬蟲開始了")

def process_item(self, item, spider):

img_json = json.dumps(item)

print("img:", img_json)

self.fp.write(img_json+"\n")

return item

def close_spider(self,spider):

self.fp.close()

print("爬蟲結束了")

在專案目錄下新建乙個start_project.py檔案

from scrapy import cmdline

cmdline.execute(["scrapy","crawl","cyjy_spider"])

最後執行start_project.py檔案就行

效果在img_content.json中儲存了

說明已經成功爬取了春雨教育的logo

爬蟲框架scrapy入門(一)

這段時間一直在學爬蟲,做了一些簡單的專案,爬取資料的過程中,被封過ip,需要翻牆,為了大規模的資料採集,開始學習scrapy框架。參照的是靜覓大神的 python3網路爬蟲開發實戰 本次爬取的 是scrapy官網 建議使用anaconda的一鍵安裝,我的電腦上同時有anaconda和pycham,一...

Python爬蟲框架scrapy入門

寫好,程式開始執行.spider 老大要我處理 x.com。引擎 你把第乙個需要處理的url給我吧。spider 給你,第乙個url是 x.com。引擎 hi!排程器,我這有request請求你幫我排序入隊一下。排程器 好的,正在處理你等一下。引擎 hi!排程器,把你處理好的request請求給我。...

Scrapy框架快速建立專案命令 框架的結構

scrapy在爬蟲開發領域是非常不錯的一款框架,如果要從事爬蟲開發那麼這款框架一定要非常熟悉,儘管在實際開發中可能用不上,但是其中的架構思想也能讓自己寫的爬蟲質量有不一般的提公升。scrapy框架應該掌握的幾條命令 cmd命令列介面執行 scrapy shell url 該條命令常用於scrapy開...