爬蟲requests解析後中文亂碼問題

在使用requests爬蟲後解析網頁時總會出現中文亂碼問題。

比如如下亂碼 ê±×¯îàéúôº 。

解決辦法就是：

'ê±×¯îàéúôº'.encode('latin1').decode('gbk')

時莊衛生院

python2的話在字串前面加乙個 u 宣告他是unicode就行（如果不行，請看一下在指令碼第一行是否有如下**

#encoding=utf-8
）

這種問題究竟怎麼解決為什麼會有亂碼呢。

要注意的是，在非 windows 平台，gbk 和 gb18030 和 gb2312 都是不同的。gb2312 才六千多個漢字，如果有一些罕用字、繁體字，那麼肯定是 gbk 或者 gb18030，但是 windows 等還是說它是 gb2312。

爬蟲 requests庫主要方法解析

kwargs 控制訪問的引數，均為可選項，共13個 params 字典或位元組序列，作為引數增加到url中 data 字典位元組序列或檔案物件，作為request的物件 json json格式的資料，作為request的內容 headers 字典，http定製頭 cookies 字典或cookie...

爬蟲筆記 Requests

requests庫是能夠處理獲取url 鏈結中的資訊的乙個第三方庫一 requests安裝 windows進入cmd命令列 pip install requests 我們可以開啟idle來檢視是否成功的安裝。沒有提示錯誤資訊表示我們已經成功地安裝好了requests庫二 requests下的主...

requests 中文亂碼

由於 requests 庫的簡潔與強大，正在被大量使用，目前我也在使用，並逐漸喜歡上它。但有時會出現中文亂碼問題，需要進行解決。result requests.get result text result.text以上述語句獲得頁面內容時很有可能會出現亂碼，原因是 result.text 返回的是u...

爬蟲requests解析後中文亂碼問題

爬蟲 requests庫主要方法解析

爬蟲筆記 Requests

requests 中文亂碼

相關推薦