python檢視網頁編碼格式

2021-08-27 11:30:04 字數 318 閱讀 4958

我們在進行網頁的獲取時,通常要檢視該網頁的編碼時,可以通過python去獲取該網頁的編碼格式。

from urllib import request

import chardet

if __name__ == "__main__":

response = request.urlopen("")

html = response.read()

charset = chardet.detect(html)#對該html進行編碼的獲取

print(charset) #列印編碼格式

python獲取網頁編碼格式

爬蟲獲取網頁內容要準確獲取網頁的編碼格式,有utf 8,gbk,gb2312等等。今天在爬新聞 時候,發現同乙個網頁會分不同的編碼,但是獲取html節點相關是根據第乙個編碼格式來的,拿人民網新聞頁原始碼舉例。當我使用python的 url r request.request url html req...

網頁編碼格式

以前一直對utf unicode ascii還有gbk編碼方式不太了解,只知道如果有中文的話一般用utf 8或gbk儲存,今天正好又接觸到了這個問題就google了下。ascii是用來表示英文的一種編碼規範,表示的最大字元數為256個,每個字元佔1個位元組。如果只用來表示英文應該是綽綽有餘了,可是還...

Python爬蟲獲取網頁編碼格式

網頁編碼格式是每個網頁規定的本頁面文字的編碼方式,其中比較流行的是ascii,gbk,utf 8,iso等。觀察許多網頁的編碼格式都是在meta標籤的content屬性中定義的。基於以上特點本文提供獲取編碼格式的方法。如下 注 本人使用的是idle python 3.7 64 bit,裝載bs4庫 ...