幾個和字元編碼相關的函式。
sys.getdefaultencoding()
可以獲取python預設的編碼。
另外還有乙個locale.getpreferredencoding()
系統使用的預設字元編碼。
暫時搞不太清這兩個函式不知道有什麼區別,只能按這樣來理解。
還有兩個編碼轉換的函式,decode和encode。
decode將字元按指定的字符集轉為unicode。
encode則相反,將unicode字串轉為指定的編碼的字串。
python文件說明如下。
decode(
input
[, errors
])
encode(
input
[, errors
]) input引數為需要轉換的字元編碼。
errorse有三個選項
'ignore',忽略錯誤。
'replace',用問號(?)代替轉換不了的字元。
'xmlcharrefreplace',用xml方式的字元引用。
下面乙個例子。
big5str.decode('big5').encode('gb18030',replace)
將大五碼字元轉為gb18030字元。
在考慮跨平台特性,建議在pyton中字元全部轉為unicode再進行處理。這時個根據locale.getpreferredencoding獲取的系統編碼使用decode來對字元進行轉換。
如果字元來自檔案則需要指明檔案所使用的編碼。
關於 python 字元編碼的一些認識
使用python,是因為他的美 以下說明常用的字元編碼在python中的應用 s 中國a print repr s 輸出原始字元 是以十六進製制表示 xd6 xd0 xb9 xfaa ansi字串我們最熟悉,英文佔乙個位元組,漢字2個位元組,以乙個 0結尾,常用於txt文字檔案 unicode字串,...
對字元編碼的一些理解
記住 unicode是乙個字符集,不是具體的編碼方案,而utf 8 utf 16才是編碼。unicode字符集和ascii是乙個型別的概念。字符集可以說是乙個抽象的概念,就是所有文字的集合,然後每個字都有乙個獨一無二的編號。而到具體的實現 就是這個編號到底是用幾個位元組去存放,就是utf x們要幹的...
python中的一些編碼問題
宣告python原始碼編碼方式 在程式的開始寫上 coding utf 8 coding gbk 注 decode是將其它編碼方式轉換成unicode編碼encode是將unicode編碼轉換成其它編碼方式,如 decode gbk gbk unicode encode gbk unicode gb...