常用編碼
------------
------------
------------
------------
1)ascii 和 ansi編碼
字元內碼(charcter code)指的是用來代表字元的內碼.讀者在輸入和儲存文件時都要使用內碼,內碼分為
單位元組內碼 -- single-byte character sets (sbcs),可以支援256個字元編碼.
雙位元組內碼 -- double-byte character sets)(dbcs),可以支援65000個字元編碼.
前者即為ascii編碼,後者對應ansi.
2)unicode
unicode也是一種字元編碼方法,不過它是由國際組織設計,可以容納全世界所有語言文字的編碼方案.
它是一種2位元組編碼
3)utf-8
這是為傳輸而設計的編碼,
其中utf-16和unicode
編碼大致一樣, utf-8就是以8位為單元對unicode進行編碼。從unicode到utf-8的編碼方式如下:
unicode編碼(16進製制) utf-8 位元組流(二進位制)
0000 - 007f 0******x
0080 - 07ff 110***xx 10******
0800 - ffff 1110***x 10****** 10******
例如「xx」字的unicode編碼是6c49。6c49在0800-ffff之間,所以肯定要用3位元組模板了:1110***x 10****** 10******。將6c49寫成二進位制是:0110 110001 001001, 用這個位元流依次代替模板中的x,得到:11100110 10110001 10001001,即e6 b1 89。
4)gbk
a)gb2312
gb2312是適合中國人使用的編碼,由中國國家標準總局發布。包括:
127之前的符號 :127之前的符號跟 ascii 碼所表示的意義相同。都是1位元組表示。
127之後的符號:127之後的符號統一用2位元組表示,包含了幾乎所有的簡體中文本。
b)gbk
gbk 編碼的前半部分跟gb2312完全相同,還往後擴充套件了更多的漢字,包括幾乎所有常見的不常見的漢字、繁體字、日語的平假名和片假名、俄文本母。
可以說gbk適用於中國大陸、台灣、香港、日本和**。
HTTP協議之chunk編碼 分塊傳輸編碼
transfer encoding chunked 表示輸出的內容長度不能確定,普通的靜態頁面 之類的基本上都用不到這個。但動態頁面就有可能會用到,但我也注意到大部分asp,php,asp.net動態頁面輸出的時候大部分還是使用content length,沒有使用transfer encoding...
python之編碼解碼 字串常用方法
bytes.decode encoding utf 8 errors strict python3中沒有 decode方法,但我們可以使用bytes物件的decode 方法來解碼給定的bytes物件,這個bytes物件可以由str.encode 來編碼返回。encode encoding utf 8...
python之編碼解碼 字串常用方法
bytes.decode encoding utf 8 errors strict python3中沒有 decode方法,但我們可以使用bytes物件的decode 方法來解碼給定的bytes物件,這個bytes物件可以由str.encode 來編碼返回。encode encoding utf 8...