這一篇我們來學習如何對多頁的網路進行資訊爬取。在平時網頁瀏覽時不少看見許多網頁是有多頁的,像這樣:
當我們不斷換頁時,我們會發現什麼呢?沒錯,「看破真相的是乙個外表看似小孩,智慧型卻過於常人的.........」:
第三頁)
第四頁)
(第五頁)
def get_info(url,data = none):wb_data = requests.get(url)#**請求,返回response
#解析網頁
#.text將網頁資料變得可讀
soup = beautifulsoup(wb_data.text,'lxml')
titles = soup.select('div.listing_title > a')
images = soup.select('div.photo_booking > a > span > img')
description = soup.select('div.listing_description > span')
duration = soup.select('div.product_duration')
price = soup.select('div.product_price_info > div.price_test > div.from > span')
for title,image,des,time,money in zip(titles,images,description,duration,price):
data =
print(data)
for i in range(30,150,30):
url = ''.format(str(i))
get_info(url)
python 爬蟲學習二
是一種按照一定的規則,自動地抓取 資訊的程式或者指令碼。爬蟲是通過網頁的鏈結位址來尋找網頁,從 某乙個頁面開始,讀取網頁的內容,找到在網頁中的其它鏈結位址,然後通過這些鏈結位址尋找下乙個網頁,這樣一直迴圈下去,直到把這個 所有的網頁都抓取完為止。基本流程 1 發起請求 通過http庫向目標站點傳送r...
Python網路爬蟲學習(二)
十五.京東商品頁面的爬取 import requests r requests.get r.status code r.encoding r.text 1000 十六.亞馬遜商品頁面的爬取 import requests def main url try kv r requests.get url,...
爬蟲二 Python爬蟲入門二
1.認識爬蟲 1.1 什麼是爬蟲 爬蟲 一段自動抓取網際網路資訊的程式,從網際網路上抓取對於我們有價值的資訊。1.2 python的爬蟲架構 網頁解析器 將乙個網頁字串進行解析,可以按照我們的要求來提取出我們有用的資訊,也可以根據dom樹的解析方式來解析。網頁解析器有正規表示式 直觀,將網頁轉成字串...