python一些字元編碼處理的手記

2021-04-19 06:15:49 字數 820 閱讀 4529

幾個和字元編碼相關的函式。

sys.getdefaultencoding()

可以獲取python預設的編碼。

另外還有乙個locale.getpreferredencoding()

系統使用的預設字元編碼。

暫時搞不太清這兩個函式不知道有什麼區別,只能按這樣來理解。

還有兩個編碼轉換的函式,decode和encode。

decode將字元按指定的字符集轉為unicode。

encode則相反,將unicode字串轉為指定的編碼的字串。

python文件說明如下。

decode(

input

[, errors

])

encode(

input

[, errors

]) input引數為需要轉換的字元編碼。

errorse有三個選項

'ignore',忽略錯誤。

'replace',用問號(?)代替轉換不了的字元。

'xmlcharrefreplace',用xml方式的字元引用。

下面乙個例子。

big5str.decode('big5').encode('gb18030',replace)

將大五碼字元轉為gb18030字元。

在考慮跨平台特性,建議在pyton中字元全部轉為unicode再進行處理。這時個根據locale.getpreferredencoding獲取的系統編碼使用decode來對字元進行轉換。

如果字元來自檔案則需要指明檔案所使用的編碼。

關於 python 字元編碼的一些認識

使用python,是因為他的美 以下說明常用的字元編碼在python中的應用 s 中國a print repr s 輸出原始字元 是以十六進製制表示 xd6 xd0 xb9 xfaa ansi字串我們最熟悉,英文佔乙個位元組,漢字2個位元組,以乙個 0結尾,常用於txt文字檔案 unicode字串,...

對字元編碼的一些理解

記住 unicode是乙個字符集,不是具體的編碼方案,而utf 8 utf 16才是編碼。unicode字符集和ascii是乙個型別的概念。字符集可以說是乙個抽象的概念,就是所有文字的集合,然後每個字都有乙個獨一無二的編號。而到具體的實現 就是這個編號到底是用幾個位元組去存放,就是utf x們要幹的...

python中的一些編碼問題

宣告python原始碼編碼方式 在程式的開始寫上 coding utf 8 coding gbk 注 decode是將其它編碼方式轉換成unicode編碼encode是將unicode編碼轉換成其它編碼方式,如 decode gbk gbk unicode encode gbk unicode gb...