大家使用python3爬蟲時,總是遇到字元編碼問題。
如:\xb7\xaf\xe5\xb8\xa6\xe9\xa3\x8e這樣的字元,令人十分苦惱。
下面我總結了幾種解決方案:
爬到的資料通常是bytes型別,如requests.get的content屬性。這時候,我們使用str(content, 『utf8』)就可以把\xb7\xaf\xe5\xb8\xa6\xe9\xa3\x8e這樣的內容轉化成漢字了。
若是想要檢視硬編碼的乙個字串,如a = 『\xb7\xaf\xe5\xb8\xa6\xe9\xa3\x8e』
那麼,使用a.encode(『raw_unicode_escape』).decode()就可以print檢視漢字了。
python3在實際使用時的字元編碼問題遠不止這幾個,現在只能遇到了就記錄一下,之後持續記錄新的編碼問題
python 3字元編碼
在python2中預設是ascii編碼,python3是utf 8編碼 在python 的源 檔案中經常會看到 a 中文 type a str b bytes a,encoding utf 8 bb xe4 xb8 xad xe6 x96 x87 type b bytes 以上的 都在python ...
Python 3「字串和編碼「
python3 字串是以unicode編碼 字元的表示轉換函式 str變為bytes方法 bytes變為str方法 注意!中文不能轉為ascii編碼 len 函式 儲存源 時,通常要在檔案開頭加上兩行 usr bin env python3 coding utf 8 格式化 小明的成績從去年的72分...
python3 字串編碼相關
編碼型別很多,常見的例如 ascii碼 最早被編入計算機中的,長度是128,主要是為了解決英文本元 gb2312 中國人編碼的,為了解決中文 unicode 統一多種編碼方式,降低亂碼 utf 8 unicode的改進版,節省編碼長度 python3預設編碼方式是 utf 8 編碼方式相互轉換 de...