import scrapy
class
movie1905item
(scrapy.item):
# define the fields for your item here like:
# name = scrapy.field()
#電影名稱
movie_name=scrapy.field()
#評分rating=scrapy.field()
#海報#post=scrapy.field()
#上映日期
date=scrapy.field()
#型別genre=scrapy.field()
#時長time=scrapy.field()
#導演director=scrapy.field()
#劇情story=scrapy.field()
pass
之後在spider檔案下建立1908movie.py
from scrapy import request
from scrapy.spiders import spider
from pymovie.items import movie1905item
class
movie1908
(spider):
name='1908movies_china'
headers=
url=''
defstart_requests
(self):
basic_url=''
start,end=0,220
for i in range(start,end):
url=basic_url.replace("%s",str(i))
yield request(url,headers=self.headers)
defparse
(self,response):
urls=response.xpath('.//ul[@class="inqlist pt18"]/li/a/@href').extract()
for url in urls:
url=""+url
yield request(url,self.parse_movie)
defparse_movie
(self,response):
item=movie1905item()
imovie=response.xpath('//div[@class="body"]')
item['movie_name']=imovie.xpath('.//div[@class="container containertop"]/div[2]/h1/text()').extract()
item['rating']=imovie.xpath('.//div[@class="container containertop"]/div[2]/h1/span[@class="score"]/b/text()').extract()
item['date']=imovie.xpath('.//div[@class="container containertop"]/div[2]/div[1]/span[1]/text()').extract()
item['genre']=imovie.xpath('.//div[@class="container containertop"]/div[2]/div[1]/span[2]/a[1]/text()').extract()
item['time']=imovie.xpath('.//div[@class="container containertop"]/div[2]/div[1]/span[4]/text()').extract()
item['director']=imovie.xpath('.//div[@class="container containertop"]/div[2]/div[2]/a[1]/@title').extract()
item['story']=imovie.xpath('.//div[@class="container containermain"]/div[1]/section/div/p/text()').extract()
yield item
最後在cmd內進入同scrapy.cfg同一級目錄中,輸入
scrapy crawl 1908movies_china movie.csv得到的movie.csv如圖
參考部落格
Scrapy爬蟲爬取電影天堂
目標 建立專案 scrapy startproject 爬蟲專案檔案的名字 生成 crawlspider 命令 scrapy genspider t crawl 爬蟲名字 爬蟲網域名稱 終端執行 scrapy crawl 爬蟲的名字 python操作mysql資料庫操作 爬蟲檔案 coding ut...
爬取豆瓣網電影資訊
coding utf 8 import urllib2 import bs4 from bs4 import beautifulsoup 爬取豆瓣網電影簡介,包括電影名,導演,評分以及介紹等 class dbtop def init self self.usr agent mozilla 5.0 w...
scrapy爬取迅雷電影天堂最新電影ed2k
幾天沒用scrapy爬 了,正好最近在刷電影,就想著把自己常用的乙個電影分享 給爬取下來儲存到本地mongodb中 第一步仍然是建立scrapy專案與spider檔案 切換到工作目錄兩條命令依次輸入 開啟目標 分類是2019年上映的電影 分析我們需要的資料 進入頁面是列表的形式就像豆瓣電影一樣,然後...