ascii碼 用八位二進位制表示乙個英文 乙個位元組
unicode 中英文均用32位二進位制表示 四個位元組
utf-8 英 8位 乙個位元組
中 24位 三個位元組
gbk 英 8位 乙個位元組
中 16位 兩個位元組
1、各個編碼之間的二進位制不能相互識別
2、檔案的儲存,傳輸不能是unicode
#encode 編碼 將str---->bytes
英文s1 = 'changchun'
s11 = s1.encode('utf-8')
s12 = s1.encode('gbk')
中文s2 = '長春'
s21 = s2.encode('utf-8')
s22 = s2.encode('gbk')
asciia : 000000108位 乙個位元組
unicode a : 00000000 00000001 00000010 0000010032位 四個位元組
中:00000000 00000001 00000010 0000011032位 四個位元組
utf-8 a : 001000008位 乙個位元組
中 : 00000001 00000010 0000011024位 三個位元組
gbk a : 000001108位 乙個位元組
中 : 00000010 0000011016位 兩個位元組
1,各個編碼之間的二進位制,是不能互相識別的,會產生亂碼。
2,檔案的儲存,傳輸,不能是unicode(只能是utf-8 utf-16gbk,gb2312,asciid等)
py3:
str 在記憶體中是用unicode編碼。
bytes型別
對於英文:
str :表現形式:s = '
alex
'編碼方式: 010101010unicode
bytes :表現形式:s = b'
alex
'編碼方式: 000101010 utf-8gbk。。。。
對於中文:
str :表現形式:s = '中國'
編碼方式: 010101010unicode
bytes :表現形式:s = b'
x\e91\e91\e01\e21\e31\e32
'編碼方式: 000101010 utf-8 gbk。。。。
常見編碼及轉換
1 bcd碼 1 壓縮bcd 4位二進位制數表示乙個十進位制數,例如 0001 0010 12 0001 0011 13 2 bcd 8位二進位制數表示乙個十進位制數,高四位為0 0000 0001 0000 0010 12 0000 0001 0000 0011 13 一般地,壓縮bcd碼比較常用...
Linux的編碼及編碼轉換
如果你需要在linux中操作windows下的檔案,那麼你可能會經常遇到檔案編碼轉換的問題。windows中預設的檔案格式是gbk gb2312 而linux一般都是utf 8。下面介紹一下,在linux中如何檢視檔案的編碼及如何進行對檔案進行編碼轉換。檢視檔案編碼 在linux中檢視檔案編碼可以通...
常用編碼方式的轉換
雖說有多種編碼方式,實際上除ascii碼外,其它區位碼 國標碼基本上都是一回事,只是其編碼的方式不同 對漢字的訪問方式不同。機內碼是機器語言編碼,它包括有語言的解釋 各類字元的機器編碼等。ascii碼是常用的字元 符號,為1到255,十六進製制01到ff。區位碼是包括漢字在內的特殊字符集,共分87區...