python爬取html中文亂碼

2022-08-20 01:18:11 字數 756 閱讀 2735

環境:

python3.6

爬取**:

爬取**:

import requests

url = ''

req = requests.get(url)

print(req.text)

爬取結果:

µçêó¾ç / »ªóïµçêó¾ç_µçó°ìììã-ñ¸à×µçó°ïâôø

如上,title內容出現亂碼,自己感覺應該是編碼的問題,但是不知道如何解決,於是上網檢視

參考**:

問題找到,原來是reqponse header只指定了type,但是沒有指定編碼(一般現在頁面編碼都直接在html頁面中),查詢原網頁可以看到

在content-type屬性中,未設定編碼格式,正常設定如下

所以使用預設的編碼格式

《http權威指南》裡第16章國際化裡提到,如果http響應中content-type欄位沒有指定charset,則預設頁面是'iso-8859-1'編碼。

這處理英文頁面當然沒有問題,但是中文頁面,就會有亂碼了!

結果為:gb2312

所以只需要加上

這個就可以了!

**:結果中文就不會亂碼了

python動態爬取知乎 python爬取微博動態

在初學爬蟲的過程中,我們會發現很多 都使用ajax技術動態載入資料,和常規的 不一樣,資料是動態載入的,如果我們使用常規的方法爬取網頁,得到的只是一堆html 沒有任何的資料。比如微博就是如此,我們可以通過下滑來獲取更多的動態。對於這樣的網頁該如何抓取呢?我們以微博使用者動態為例,抓取某名使用者的文...

python爬取電影top存入HTML檔案

當我們在進行爬蟲的時候!會選擇多種儲存顯示方式!這次我們簡單的例項一下 需要一點html基礎 關於html布局推薦 需要在同步資料夾裡新增css檔案,html引入 py檔案 from lxml import etree import requests import json from urllib....

python讀取SQL server中文亂碼處理

環境 問題描述 乙個python資料處理指令碼,功能是一些資料儲存操作。使用了pandas sqlalchemy做資料庫連線。e1上,任何情況均執行正常。e2上,出現中文亂碼 相關知識點 varchar在sqlserver中,採用單位元組儲存。nvarchar在sqlserver中,採用雙位元組儲存...