環境:
python3.6
爬取**:
爬取**:
import requests爬取結果:url = ''
req = requests.get(url)
print(req.text)
µçêó¾ç / »ªóïµçêó¾ç_µçó°ìììã-ñ¸à×µçó°ïâôø
如上,title內容出現亂碼,自己感覺應該是編碼的問題,但是不知道如何解決,於是上網檢視
參考**:
問題找到,原來是reqponse header只指定了type,但是沒有指定編碼(一般現在頁面編碼都直接在html頁面中),查詢原網頁可以看到
在content-type屬性中,未設定編碼格式,正常設定如下
所以使用預設的編碼格式
《http權威指南》裡第16章國際化裡提到,如果http響應中content-type欄位沒有指定charset,則預設頁面是'iso-8859-1'編碼。
這處理英文頁面當然沒有問題,但是中文頁面,就會有亂碼了!
結果為:gb2312
所以只需要加上
這個就可以了!
**:結果中文就不會亂碼了
python動態爬取知乎 python爬取微博動態
在初學爬蟲的過程中,我們會發現很多 都使用ajax技術動態載入資料,和常規的 不一樣,資料是動態載入的,如果我們使用常規的方法爬取網頁,得到的只是一堆html 沒有任何的資料。比如微博就是如此,我們可以通過下滑來獲取更多的動態。對於這樣的網頁該如何抓取呢?我們以微博使用者動態為例,抓取某名使用者的文...
python爬取電影top存入HTML檔案
當我們在進行爬蟲的時候!會選擇多種儲存顯示方式!這次我們簡單的例項一下 需要一點html基礎 關於html布局推薦 需要在同步資料夾裡新增css檔案,html引入 py檔案 from lxml import etree import requests import json from urllib....
python讀取SQL server中文亂碼處理
環境 問題描述 乙個python資料處理指令碼,功能是一些資料儲存操作。使用了pandas sqlalchemy做資料庫連線。e1上,任何情況均執行正常。e2上,出現中文亂碼 相關知識點 varchar在sqlserver中,採用單位元組儲存。nvarchar在sqlserver中,採用雙位元組儲存...