多頁爬取資料

2021-08-04 14:26:20 字數 1366 閱讀 8590

beautifulsoup自動將輸入文件轉換為unicode編碼,輸出文件轉換為utf-8編碼。你不需要考慮編碼方式,除非文件沒有指定乙個編碼方式,這時,beautifulsoup就不能自動識別編碼方式。這時,你只需要說明一下原始編碼方式就ok。引數用lxml就可以,需要另行安裝並載入。beautifulsoup已成為和lxml、html6lib一樣出色的python直譯器,為使用者靈活地提供不同的解析策略或強勁的速度。

from bs4 import beautifulsoup

import requests

import lxml

import time

url=''

urls = [''.format(str(i)) for i in range(30,1110,30)]

defget_attractions

(url):

web_data = requests.get(url)

time.sleep(2)

soup = beautifulsoup(web_data.text,'lxml')

imgs = soup.select('img[width="180"]')

titles = soup.select('#attr_entry_ > div.attraction_clarity_cell > div > div > div.listing_info > div.listing_title > a')

scores = soup.select('#attr_entry_ > div.attraction_clarity_cell > div > div > div.listing_info > div.listing_rating > div > div > span[alt]')

comments = soup.select('#attr_entry_ > div.attraction_clarity_cell > div > div > div.listing_info > div.listing_rating > div > div > span.more > a')

cates = soup.select('div.p13n_reasoning_v2')

for img,title,score,comment,cate in zip(imgs,titles,scores,comments,cates):

data =

print(data)

for single_url in urls:

get_attractions(single_url)

爬取資料如下

python爬蟲爬取多頁內容

前幾天零組資料庫發文關閉,第乙個念頭是可惜,想著趕緊把資料儲存下來,卻發現爬蟲已經忘得差不多了,趕緊複習一波。不多說,pycharm,啟動!不知道爬啥,隨便找個網頁吧 url 首選獲取目標 html頁面 f12提取請求頭資訊,這裡我們只需ua即可 根據網頁 meta標籤設定編碼格式 如下 impor...

Scrapy實現多頁的爬取

1 scrapy實現多頁的爬取 多頁爬取的思路 1,在start urls中構建url的列表。逐一請求 2,定義乙個page屬性,利用if判斷來實現多頁 2 深度爬取 1,深度爬取 從列表頁到詳情頁,甚至是更後續的頁面的資料的獲取 2,深度爬蟲 通常我們要爬取的資料隱藏在form表單之後,需要越過表...

爬蟲 爬取多頁資料

最近在寫乙個簡單的爬蟲,最開始使用的是bs4工具,但是後面接觸到xpath,覺得這個比較適合我哈哈.然後用xpath又重新寫了一遍,其中讓我困擾的還是多頁爬取,ip老是被封.網上找了很多方法,大多數都是說要建立乙個ip池,迴圈爬取多頁資料的時候,就換ip這樣就不會被封了.然後 ip有兩種,乙個要付費...