scrapy框架爬取豆瓣讀書（1）

scrapy，python開發的乙個快速、高層次的螢幕抓取和web抓取框架，用於抓取web站點並從頁面中提取結構化的資料。scrapy用途廣泛，可以用於資料探勘、監測和自動化測試。

scrapy吸引人的地方在於它是乙個框架，任何人都可以根據需求方便的修改。它也提供了多種型別爬蟲的基類，如basespider、sitemap爬蟲等，最新版本又提供了web2.0爬蟲的支援。

主要元件：

cd到douban根目錄下執行 scrapy genspider douban book.douban.com

原網頁結構

xpath是基於xml的樹狀結構，有不同型別的節點，包括元素節點，屬性節點和文字節點，提供在資料結構樹中找尋節點的能力。

xpath初探：

提取書籍排行榜鏈結，以備後續儲存

提取作者，所在地區

# 請求第一頁

yield scrapy.request(response.url, callback=self.parse_next)

#爬取其他頁面

for page in response.xpath('//div[@class="paginator"]/a'):

link = page.xpath('@href').extract()[0]

yield scrapy.request(link, callback=self.parse_next)

def parse_next(self, response):

for item in response.xpath('//tr[@class="item"]'):

book = doubanbookitem()

book['name'] = item.xpath('td[2]/div[1]/a/@title').extract()[0]

book['content'] = item.xpath('td[2]/p/text()').extract()[0]

book['ratings'] = item.xpath('td[2]/div[2]/span[2]/text()').extract()[0]

yield book

scrapy框架爬取豆瓣電影的資料

1.什麼是scrapy框架？scrapy是乙個為了爬取資料，提取結構性資料而編寫的應用框架。其可以應用在資料探勘，資訊處理或儲存歷史資料等一系列的程式中。其最初是為了頁面抓取更確切來說,網路抓取所設計的，也可以應用在獲取api所返回的資料例如 amazon associates web se...

python爬取資料豆瓣讀書

xpath爬取指令碼 from urllib import request from lxml import etree base url response request.urlopen base url html response.read decode utf 8 htmls etree.ht...

python爬蟲之scrapy爬取豆瓣電影（練習）

開發環境 windows pycharm mongodb scrapy 任務目標任務目標爬取豆瓣電影top250 將資料儲存到mongodb中。items.py檔案 coding utf 8 define here the models for your scraped items see d...

scrapy框架爬取豆瓣讀書（1）

scrapy框架爬取豆瓣電影的資料

python爬取資料豆瓣讀書

python爬蟲之scrapy爬取豆瓣電影（練習）

相關推薦