字串在python內部的表示是unicode編碼,因此,在做編碼轉換時,通常需要以unicode作為中間編碼
decode:將其他編碼的字串轉換成unicode編碼,
如str1.decode(『gb2312』):
表示將gb2312編碼的字串轉換成unicode編碼。
encode:將unicode編碼轉換成其他編碼的字串,
如str2.encode(『gb2312』):
表示將unicode編碼的字串轉換成gb2312編碼。
對於異常編碼:
s.decode(「utf-8」, 「ignore」) 忽略其中有異常的編碼,僅顯示有效的編碼
s.decode(「utf-8」, 「replace」) 替換其中異常的編碼
判斷字元編碼型別:
isinstance(s, unicode)
獲取和修改系統預設編碼:
import sys
print sys.getdefaultencoding( )
reload(sys)
sys.setdefaultencoding(『utf8』)
print sys.getdefaultencoding( )
參考:
Python字元編碼問題
寫python經常受到字元編碼的困擾,此問題主要是在2.x中.因為2.x中的字串有兩種型別 str和unicode,它們共同的祖先是basestring.下面的經驗主要是基於windows上面的python2.x,使用macos可以減少許多不必要的煩惱.之所以經常出現字元亂碼,有以下幾點原因 pyt...
Python 字元編碼問題
在做自動化測試過程中,總是遇到編碼問題,總結以下幾點 1 在python指令碼中想要有中文出現,比如中文注釋,解決方法 在檔案的頭部加上 coding utf 8 2 想要實現writelines能夠寫入中文 a.file.writelines u 中文 b.str 這裡輸入中文 file.writ...
python字元編碼問題
前言 字元編碼非常容易出問題,我們要牢記幾句話 1.用什麼編碼儲存的,就要用什麼編碼開啟 2.程式的執行,是先將檔案讀入記憶體中 3.unicode是父編碼,只能encode解碼成其他編碼格式 utf 8,gbk這些是子8編碼,只能decode編碼成unicode 一 什麼是字元編碼 我們知道,計算...