python字元編碼問題

2021-08-28 17:18:11 字數 617 閱讀 5132

字串在python內部的表示是unicode編碼,因此,在做編碼轉換時,通常需要以unicode作為中間編碼

decode:將其他編碼的字串轉換成unicode編碼,

如str1.decode(『gb2312』):

表示將gb2312編碼的字串轉換成unicode編碼。

encode:將unicode編碼轉換成其他編碼的字串,

如str2.encode(『gb2312』):

表示將unicode編碼的字串轉換成gb2312編碼。

對於異常編碼:

s.decode(「utf-8」, 「ignore」) 忽略其中有異常的編碼,僅顯示有效的編碼

s.decode(「utf-8」, 「replace」) 替換其中異常的編碼

判斷字元編碼型別:

isinstance(s, unicode)

獲取和修改系統預設編碼:

import sys

print sys.getdefaultencoding( )

reload(sys)

sys.setdefaultencoding(『utf8』)

print sys.getdefaultencoding( )

參考:

Python字元編碼問題

寫python經常受到字元編碼的困擾,此問題主要是在2.x中.因為2.x中的字串有兩種型別 str和unicode,它們共同的祖先是basestring.下面的經驗主要是基於windows上面的python2.x,使用macos可以減少許多不必要的煩惱.之所以經常出現字元亂碼,有以下幾點原因 pyt...

Python 字元編碼問題

在做自動化測試過程中,總是遇到編碼問題,總結以下幾點 1 在python指令碼中想要有中文出現,比如中文注釋,解決方法 在檔案的頭部加上 coding utf 8 2 想要實現writelines能夠寫入中文 a.file.writelines u 中文 b.str 這裡輸入中文 file.writ...

python字元編碼問題

前言 字元編碼非常容易出問題,我們要牢記幾句話 1.用什麼編碼儲存的,就要用什麼編碼開啟 2.程式的執行,是先將檔案讀入記憶體中 3.unicode是父編碼,只能encode解碼成其他編碼格式 utf 8,gbk這些是子8編碼,只能decode編碼成unicode 一 什麼是字元編碼 我們知道,計算...