情況有多種:
1、只包含中文和ascii字元,網上流行的先設定encoding再取content或者text,這裡不介紹了;
解決辦法:
2.1、不管亂碼有多嚴重,先用乙個相容性很強的編碼unicode_escape解剖開
2.2、根據之前的報錯結合解剖過的unicode_escape編碼內容檢查錯誤。
這一步是解決問題的關鍵,我將給你們看看我遇到的案發現場
車禍現場1:文件首部充斥著不可見字元,我收到了\ufeff的報錯資訊,replace掉解決
車禍現場2:\xa9非中文本元,也非ascii字元,我收到了\xa9的報錯資訊,replace掉解決
2.3、解決錯誤,再decode('unicode_escape')。
python爬蟲 2 requests使用
基本用法 獲取內容 import requests headers accept encoding gzip,deflate accept language zh cn,zh q 0.8 connection keep alive user agent mozilla 5.0 x11 ubuntu ...
Python爬蟲 2 Requests的用法
一 什麼是requests?requests是python語言編寫,基於urllib3,採用apache2 licensed開源協議的http庫。它比urllib更加方便,可以節約我們大量的工作,完全滿足http測試需求。是python實現的簡單易用的http庫。安裝也很簡單 pip install...
python爬蟲requests模組
首先,沒有安裝的先安裝 cmd pip conda install requests 先給大家乙個模板,如果已經很熟悉了,直接忽略,不懂得就可以看看了 接下來解釋一下相應的 的意思 這個和上和上面的是一樣的,執行後輸出的 都是一樣的啦 coding utf 8 引入網路請求模組,該模組有兩個重要的物...