在獲取網頁時會遇到各種各樣的編碼問題,我們有不同的編碼方式,但是在使用beautifulsoup時,他有自動檢測編碼的功能,但是這樣遍歷一遍,知道編碼也是乙個很慢的過程。而且依然有可能出錯。因此我們可以在例項化beautifulsoup時,加上編碼規則,這樣就可避免錯誤。
首先我們先檢視爬蟲的頁面的編碼方式,使用下列**即可獲得
輸出編碼時,可以呼叫 beautifulsoup 物件或任意節點的 encode() 方法,就像python的字串呼叫 encode() 方法一樣:
soup.p
.encode("latin-1")
# 'sacr\xe9 bleu!
'soup.p
.encode("utf-8")
# 'sacr\xc3\xa9 bleu!
'
引入解決編碼問題
from bs4 import unicodedammit
>>> dammit = unicodedammit("sacr\xc3\xa9 bleu!")
>>> print(dammit.unicode_markup)
>>> dammit.original_encoding
python爬蟲筆記 編碼問題
importurllib2 importurllib importrequests frombs4 importbeautifulsoup url respones requests.get url text soup beautifulsoup respones,html.parser info ...
爬蟲編碼問題詳解 requests
平時我們使用 requests 時,通過兩種方法拿到響應的內容 import requests response requests.get a response.content type bytes b response.text type str 其中response.text是我們常用的.req...
python3爬蟲編碼問題
使用爬蟲爬取網頁經常遇到各種編碼問題,因此產生亂碼 今天折騰了一天,全部總結一遍 import requests url response requests.get url content response.text print content 結果有 顯示,但是出現亂碼 使用urllib庫 imp...