首先安裝scrapy cmd ——>輸入pip install scrapy
window 下還需安裝pypiwin32 pip install pypiwin32
pycharm 不能直接建立scrapy專案
在你的專案工作目錄或者包目錄下, cmd ——> 輸入 scrapy startproject [專案名稱]
建立好後,會生成這樣的目錄
我是新建了一些檔案,不要見怪,後面會講到,
items.py自定義資料型別,不需要使用字典的方式去使用
middlewares.py是中介軟體
pipelines.py處理爬取的資料
一些設定建議配置一下,在setting.py裡面
user-agent可以去瀏覽器中copy乙個,
新建乙個爬蟲 在新建專案目錄下cmd輸入scrapy genspider [檔名(注意不能與專案名一樣)] [允許訪問的網域名稱]
如 scrapy genspider cyjy_spider "cyjy.com"
在spiders包下面生成了乙個cyjy_spider.py的檔案
爬蟲**就在這個檔案裡寫
在cyjy_spider.py中
# -*- coding: utf-8 -*-
import scrapy
class cyjyspiderspider(scrapy.spider):
name = 'cyjy_spider'
allowed_domains = ['cyjy.com']
start_urls = ['']
def parse(self, response):
print("*"*100)
content_logo_img = response.xpath("//div[@class='cyjt_logo fl']/a/img/@src").get()
content_logo_img =
print("*"*100)
yield content_logo_img
在pipelines.py中
# -*- coding: utf-8 -*-
# define your item pipelines here
## don't forget to add your pipeline to the item_pipelines setting
# see:
import json
class cyjypipeline(object):
def __init__(self):
self.fp = open("img_content.json","w",encoding="utf-8")
def open_spider(self,spider):
print("爬蟲開始了")
def process_item(self, item, spider):
img_json = json.dumps(item)
print("img:", img_json)
self.fp.write(img_json+"\n")
return item
def close_spider(self,spider):
self.fp.close()
print("爬蟲結束了")
在專案目錄下新建乙個start_project.py檔案
from scrapy import cmdline
cmdline.execute(["scrapy","crawl","cyjy_spider"])
最後執行start_project.py檔案就行
效果在img_content.json中儲存了
說明已經成功爬取了春雨教育的logo
爬蟲框架scrapy入門(一)
這段時間一直在學爬蟲,做了一些簡單的專案,爬取資料的過程中,被封過ip,需要翻牆,為了大規模的資料採集,開始學習scrapy框架。參照的是靜覓大神的 python3網路爬蟲開發實戰 本次爬取的 是scrapy官網 建議使用anaconda的一鍵安裝,我的電腦上同時有anaconda和pycham,一...
Python爬蟲框架scrapy入門
寫好,程式開始執行.spider 老大要我處理 x.com。引擎 你把第乙個需要處理的url給我吧。spider 給你,第乙個url是 x.com。引擎 hi!排程器,我這有request請求你幫我排序入隊一下。排程器 好的,正在處理你等一下。引擎 hi!排程器,把你處理好的request請求給我。...
Scrapy框架快速建立專案命令 框架的結構
scrapy在爬蟲開發領域是非常不錯的一款框架,如果要從事爬蟲開發那麼這款框架一定要非常熟悉,儘管在實際開發中可能用不上,但是其中的架構思想也能讓自己寫的爬蟲質量有不一般的提公升。scrapy框架應該掌握的幾條命令 cmd命令列介面執行 scrapy shell url 該條命令常用於scrapy開...