python 編碼問題

2021-08-21 18:14:07 字數 882 閱讀 2031

好文章:

編碼理解

**1.為了處理英文本元,產生了ascii碼。 

2.為了處理中文字元,產生了gb2312。  -------不懂

3.為了處理各國字元,產生了unicode。 

4.為了提高unicode儲存和傳輸效能,產生了utf-8,它是unicode的一種實現形式。**

1.python2:

因為:python2是預設assci碼, 所以不能識別中文,在檔案頭部加入一行編碼宣告 #coding=utf-8

>>> name = '哈哈'

>>> name

'\xe5\x93\x88\xe5\x93\x88'

>>> chardet.detect(name)

>>> name = "hah"

>>> type(name)

>>> chardet.detect(name)

***decode()方法將其他編碼字元轉化為unicode編碼字元。 

encode()方法將unicode編碼字元轉化為其他編碼字元。*  

任何編碼轉換 都要把編碼先轉換成unicode編碼

>>> name1 = name.decode('utf-8')     name是utf-8的編碼 解碼為 unicode

>>> name1.encode('gb2312')             從unicode編碼為其他編碼字元

'\xb9\xfe\xb9\xfe\xb9\xfe'

當我們需要作業系統正確的輸出乙個字元時,除了要知道該字元的字元編碼,也要知道自己系統所使用的字元編碼。如果系統使用的是utf-8編碼,處理的卻是gb2312的字元就會出現所謂「亂碼」。    ----什麼鬼

Python編碼問題

tag python,encoding,unicode 現有的字元編碼 ascii,gbk,gb2312,utf 8,unicode.unicode可以用來表示所有語言的字元,而且是定長雙位元組 也有四位元組的 編碼,包括英文本母在內。python中定義乙個unicode字串和定義乙個普通字串一樣簡...

python編碼問題

python裡面基本上要考慮三種編碼格式 1 原始檔編碼 在檔案頭部使用coding宣告。告訴python直譯器該 檔案所使用的字符集。usr bin python coding utf8 2 內部編碼 檔案中的字串,經過decode以後,被轉換為統一的unicode格式的內部資料,類似於u uni...

Python編碼問題

python裡面基本上要考慮三種編碼格式 1 原始檔編碼 在檔案頭部使用coding宣告。告訴python直譯器該 檔案所使用的字符集。usr bin python coding utf8 2 內部編碼 檔案中的字串,經過decode以後,被轉換為統一的unicode格式的內部資料,類似於u uni...