Scrapy爬取1908電影網電影資料

2021-08-03 12:54:28 字數 2371 閱讀 6499

import scrapy

class

movie1905item

(scrapy.item):

# define the fields for your item here like:

# name = scrapy.field()

#電影名稱

movie_name=scrapy.field()

#評分rating=scrapy.field()

#海報#post=scrapy.field()

#上映日期

date=scrapy.field()

#型別genre=scrapy.field()

#時長time=scrapy.field()

#導演director=scrapy.field()

#劇情story=scrapy.field()

pass

之後在spider檔案下建立1908movie.py

from scrapy import request

from scrapy.spiders import spider

from pymovie.items import movie1905item

class

movie1908

(spider):

name='1908movies_china'

headers=

url=''

defstart_requests

(self):

basic_url=''

start,end=0,220

for i in range(start,end):

url=basic_url.replace("%s",str(i))

yield request(url,headers=self.headers)

defparse

(self,response):

urls=response.xpath('.//ul[@class="inqlist pt18"]/li/a/@href').extract()

for url in urls:

url=""+url

yield request(url,self.parse_movie)

defparse_movie

(self,response):

item=movie1905item()

imovie=response.xpath('//div[@class="body"]')

item['movie_name']=imovie.xpath('.//div[@class="container containertop"]/div[2]/h1/text()').extract()

item['rating']=imovie.xpath('.//div[@class="container containertop"]/div[2]/h1/span[@class="score"]/b/text()').extract()

item['date']=imovie.xpath('.//div[@class="container containertop"]/div[2]/div[1]/span[1]/text()').extract()

item['genre']=imovie.xpath('.//div[@class="container containertop"]/div[2]/div[1]/span[2]/a[1]/text()').extract()

item['time']=imovie.xpath('.//div[@class="container containertop"]/div[2]/div[1]/span[4]/text()').extract()

item['director']=imovie.xpath('.//div[@class="container containertop"]/div[2]/div[2]/a[1]/@title').extract()

item['story']=imovie.xpath('.//div[@class="container containermain"]/div[1]/section/div/p/text()').extract()

yield item

最後在cmd內進入同scrapy.cfg同一級目錄中,輸入

scrapy crawl 1908movies_china movie.csv

得到的movie.csv如圖

參考部落格

Scrapy爬蟲爬取電影天堂

目標 建立專案 scrapy startproject 爬蟲專案檔案的名字 生成 crawlspider 命令 scrapy genspider t crawl 爬蟲名字 爬蟲網域名稱 終端執行 scrapy crawl 爬蟲的名字 python操作mysql資料庫操作 爬蟲檔案 coding ut...

爬取豆瓣網電影資訊

coding utf 8 import urllib2 import bs4 from bs4 import beautifulsoup 爬取豆瓣網電影簡介,包括電影名,導演,評分以及介紹等 class dbtop def init self self.usr agent mozilla 5.0 w...

scrapy爬取迅雷電影天堂最新電影ed2k

幾天沒用scrapy爬 了,正好最近在刷電影,就想著把自己常用的乙個電影分享 給爬取下來儲存到本地mongodb中 第一步仍然是建立scrapy專案與spider檔案 切換到工作目錄兩條命令依次輸入 開啟目標 分類是2019年上映的電影 分析我們需要的資料 進入頁面是列表的形式就像豆瓣電影一樣,然後...