beautifulsoup自動將輸入文件轉換為unicode編碼,輸出文件轉換為utf-8編碼。你不需要考慮編碼方式,除非文件沒有指定乙個編碼方式,這時,beautifulsoup就不能自動識別編碼方式。這時,你只需要說明一下原始編碼方式就ok。引數用lxml就可以,需要另行安裝並載入。beautifulsoup已成為和lxml、html6lib一樣出色的python直譯器,為使用者靈活地提供不同的解析策略或強勁的速度。
from bs4 import beautifulsoup
import requests
import lxml
import time
url=''
urls = [''.format(str(i)) for i in range(30,1110,30)]
defget_attractions
(url):
web_data = requests.get(url)
time.sleep(2)
soup = beautifulsoup(web_data.text,'lxml')
imgs = soup.select('img[width="180"]')
titles = soup.select('#attr_entry_ > div.attraction_clarity_cell > div > div > div.listing_info > div.listing_title > a')
scores = soup.select('#attr_entry_ > div.attraction_clarity_cell > div > div > div.listing_info > div.listing_rating > div > div > span[alt]')
comments = soup.select('#attr_entry_ > div.attraction_clarity_cell > div > div > div.listing_info > div.listing_rating > div > div > span.more > a')
cates = soup.select('div.p13n_reasoning_v2')
for img,title,score,comment,cate in zip(imgs,titles,scores,comments,cates):
data =
print(data)
for single_url in urls:
get_attractions(single_url)
爬取資料如下
python爬蟲爬取多頁內容
前幾天零組資料庫發文關閉,第乙個念頭是可惜,想著趕緊把資料儲存下來,卻發現爬蟲已經忘得差不多了,趕緊複習一波。不多說,pycharm,啟動!不知道爬啥,隨便找個網頁吧 url 首選獲取目標 html頁面 f12提取請求頭資訊,這裡我們只需ua即可 根據網頁 meta標籤設定編碼格式 如下 impor...
Scrapy實現多頁的爬取
1 scrapy實現多頁的爬取 多頁爬取的思路 1,在start urls中構建url的列表。逐一請求 2,定義乙個page屬性,利用if判斷來實現多頁 2 深度爬取 1,深度爬取 從列表頁到詳情頁,甚至是更後續的頁面的資料的獲取 2,深度爬蟲 通常我們要爬取的資料隱藏在form表單之後,需要越過表...
爬蟲 爬取多頁資料
最近在寫乙個簡單的爬蟲,最開始使用的是bs4工具,但是後面接觸到xpath,覺得這個比較適合我哈哈.然後用xpath又重新寫了一遍,其中讓我困擾的還是多頁爬取,ip老是被封.網上找了很多方法,大多數都是說要建立乙個ip池,迴圈爬取多頁資料的時候,就換ip這樣就不會被封了.然後 ip有兩種,乙個要付費...