python爬取html中文亂碼

環境：

python3.6

爬取**：

import requests
url = ''
req = requests.get(url)
print(req.text)

爬取結果：

µçêó¾ç / »ªóïµçêó¾ç_µçó°ìììã-ñ¸à×µçó°ïâôø

如上，title內容出現亂碼，自己感覺應該是編碼的問題，但是不知道如何解決，於是上網檢視

參考**：

問題找到，原來是reqponse header只指定了type，但是沒有指定編碼(一般現在頁面編碼都直接在html頁面中)，查詢原網頁可以看到

在content-type屬性中，未設定編碼格式，正常設定如下

所以使用預設的編碼格式

《http權威指南》裡第16章國際化裡提到，如果http響應中content-type欄位沒有指定charset，則預設頁面是'iso-8859-1'編碼。

這處理英文頁面當然沒有問題，但是中文頁面，就會有亂碼了！

結果為：gb2312

所以只需要加上

這個就可以了！

**:結果中文就不會亂碼了

python動態爬取知乎 python爬取微博動態

在初學爬蟲的過程中，我們會發現很多都使用ajax技術動態載入資料，和常規的不一樣，資料是動態載入的，如果我們使用常規的方法爬取網頁，得到的只是一堆html 沒有任何的資料。比如微博就是如此，我們可以通過下滑來獲取更多的動態。對於這樣的網頁該如何抓取呢？我們以微博使用者動態為例，抓取某名使用者的文...

python爬取電影top存入HTML檔案

當我們在進行爬蟲的時候！會選擇多種儲存顯示方式！這次我們簡單的例項一下需要一點html基礎關於html布局推薦需要在同步資料夾裡新增css檔案，html引入 py檔案 from lxml import etree import requests import json from urllib....

python讀取SQL server中文亂碼處理

環境問題描述乙個python資料處理指令碼，功能是一些資料儲存操作。使用了pandas sqlalchemy做資料庫連線。e1上，任何情況均執行正常。e2上，出現中文亂碼相關知識點 varchar在sqlserver中，採用單位元組儲存。nvarchar在sqlserver中，採用雙位元組儲存...

python爬取html中文亂碼

python動態爬取知乎 python爬取微博動態

python爬取電影top存入HTML檔案

python讀取SQL server中文亂碼處理

相關推薦