上章回顧
上一章python實戰演練之scrapy初體驗中講到了scrapy專案的建立,爬蟲的建立,以及資料的提取。
跨頁爬取如何實現
不過這些都是建立在單頁網頁資料的爬取之中,很多時候我們需要跨很多頁去爬取資料,這個時候該怎麼實現呢?
跨頁爬取的實現
所以,srcapy的跨頁爬取很好實現,只用在courses.py中新增幾行**即可。
import scrapy
from educsdn.items import coursesitem
class
coursesspider
(scrapy.spider)
: name =
'courses'
allowed_domains =
['edu.csdn.net'
] start_urls =
['']#第一頁
p =1def
parse
(self, response)
:# 解析課程資訊
# 獲取當前請求頁面下的所有課程資訊
print
(dd.xpath(
"./div[@class='titleinfor'/text()]"
).extract())
dl = response.selector.css(
"div.course_item"
)# 遍歷課程資訊並封裝到item
for dd in dl:
item = coursesitem(
) item[
'title'
]= dd.css(
"span.title::text"
).extract_first(
) item[
'url'
]= dd.css(
"a::attr(href)"
).extract_first(
) item[
'pic'
]= dd.css(
"img::attr(src)"
).extract_first(
) item[
'teacher'
]= dd.css(
"span.lecname::text"
).extract_first(
) item[
'time'
]= dd.css(
"span.course_lessons::text"
).extract_first(
) item[
'price'
]= dd.css(
"p.priceinfo i::text"
).extract_first(
)print
(item)
# 跨頁提取資訊
self.p +=
1if self.p <4:
next_url =
''+str
(self.p)
url = response.urljoin(next_url)
yield scrapy.request(url=url,callback=self.parse)
self.p < 4
說明只爬取前三頁的資料,具體輸出和上一章差不多,只是多了2頁的新增資料,這裡就不列出了。 Python實戰爬蟲 爬取段子
不管三七二十一我們先導入模組 段子所在的 import re import requests 如果沒這模組執行cmd pip install requests領域 web開發,爬蟲,資料分析,資料探勘,人工智慧 零基礎到專案實戰,7天學習上手做專案 獲取 的內容 段子所在的 import re im...
python爬蟲爬取多頁內容
前幾天零組資料庫發文關閉,第乙個念頭是可惜,想著趕緊把資料儲存下來,卻發現爬蟲已經忘得差不多了,趕緊複習一波。不多說,pycharm,啟動!不知道爬啥,隨便找個網頁吧 url 首選獲取目標 html頁面 f12提取請求頭資訊,這裡我們只需ua即可 根據網頁 meta標籤設定編碼格式 如下 impor...
python爬取豆瓣網頁短評實戰!
首先我們開啟我的父親母親的網頁介面 鏈結 可以觀察到如下介面以及讀者對本書的評價 接下來我們直接附上 書名 我的父親母親 出版社 南海出版公司 原作名 alfred and emily 譯者 匡詠梅 出版年 2013 1 頁數 238 定價 29.50元 裝幀 精裝 叢書 新經典文庫 萊辛作品 is...