好文章:
編碼理解
**1.為了處理英文本元,產生了ascii碼。
2.為了處理中文字元,產生了gb2312。 -------不懂
3.為了處理各國字元,產生了unicode。
4.為了提高unicode儲存和傳輸效能,產生了utf-8,它是unicode的一種實現形式。**
1.python2:
因為:python2是預設assci碼, 所以不能識別中文,在檔案頭部加入一行編碼宣告 #coding=utf-8
>>> name = '哈哈'
>>> name
'\xe5\x93\x88\xe5\x93\x88'
>>> chardet.detect(name)
>>> name = "hah"
>>> type(name)
>>> chardet.detect(name)
***decode()方法將其他編碼字元轉化為unicode編碼字元。
encode()方法將unicode編碼字元轉化為其他編碼字元。*
任何編碼轉換 都要把編碼先轉換成unicode編碼
>>> name1 = name.decode('utf-8') name是utf-8的編碼 解碼為 unicode
>>> name1.encode('gb2312') 從unicode編碼為其他編碼字元
'\xb9\xfe\xb9\xfe\xb9\xfe'
當我們需要作業系統正確的輸出乙個字元時,除了要知道該字元的字元編碼,也要知道自己系統所使用的字元編碼。如果系統使用的是utf-8編碼,處理的卻是gb2312的字元就會出現所謂「亂碼」。 ----什麼鬼
Python編碼問題
tag python,encoding,unicode 現有的字元編碼 ascii,gbk,gb2312,utf 8,unicode.unicode可以用來表示所有語言的字元,而且是定長雙位元組 也有四位元組的 編碼,包括英文本母在內。python中定義乙個unicode字串和定義乙個普通字串一樣簡...
python編碼問題
python裡面基本上要考慮三種編碼格式 1 原始檔編碼 在檔案頭部使用coding宣告。告訴python直譯器該 檔案所使用的字符集。usr bin python coding utf8 2 內部編碼 檔案中的字串,經過decode以後,被轉換為統一的unicode格式的內部資料,類似於u uni...
Python編碼問題
python裡面基本上要考慮三種編碼格式 1 原始檔編碼 在檔案頭部使用coding宣告。告訴python直譯器該 檔案所使用的字符集。usr bin python coding utf8 2 內部編碼 檔案中的字串,經過decode以後,被轉換為統一的unicode格式的內部資料,類似於u uni...