007 Http之常用編碼

常用編碼

------------

1）ascii 和 ansi編碼

字元內碼(charcter code)指的是用來代表字元的內碼.讀者在輸入和儲存文件時都要使用內碼,內碼分為

單位元組內碼 -- single-byte character sets (sbcs),可以支援256個字元編碼.

雙位元組內碼 -- double-byte character sets)(dbcs),可以支援65000個字元編碼.

前者即為ascii編碼，後者對應ansi.

2）unicode

unicode也是一種字元編碼方法，不過它是由國際組織設計，可以容納全世界所有語言文字的編碼方案．

它是一種２位元組編碼

3）utf-8

這是為傳輸而設計的編碼，

其中utf-16和unicode

編碼大致一樣, utf-8就是以8位為單元對unicode進行編碼。從unicode到utf-8的編碼方式如下：

unicode編碼(16進製制)　　　　utf-8 位元組流(二進位制)

0000 - 007f　　　　　　　　　0******x

0080 - 07ff　　　　　　　　　110***xx 10******

0800 - ffff　　　　　　　　　1110***x 10****** 10******

例如「xx」字的unicode編碼是6c49。6c49在0800-ffff之間，所以肯定要用3位元組模板了：1110***x 10****** 10******。將6c49寫成二進位制是：0110 110001 001001，用這個位元流依次代替模板中的x，得到：11100110 10110001 10001001，即e6 b1 89。

4）gbk

a）gb2312

gb2312是適合中國人使用的編碼，由中國國家標準總局發布。包括：

127之前的符號：127之前的符號跟 ascii 碼所表示的意義相同。都是1位元組表示。

127之後的符號：127之後的符號統一用2位元組表示，包含了幾乎所有的簡體中文本。

b）gbk

gbk 編碼的前半部分跟gb2312完全相同，還往後擴充套件了更多的漢字，包括幾乎所有常見的不常見的漢字、繁體字、日語的平假名和片假名、俄文本母。

可以說gbk適用於中國大陸、台灣、香港、日本和**。

HTTP協議之chunk編碼分塊傳輸編碼

transfer encoding chunked 表示輸出的內容長度不能確定，普通的靜態頁面之類的基本上都用不到這個。但動態頁面就有可能會用到，但我也注意到大部分asp,php,asp.net動態頁面輸出的時候大部分還是使用content length，沒有使用transfer encoding...

python之編碼解碼字串常用方法

bytes.decode encoding utf 8 errors strict python3中沒有 decode方法，但我們可以使用bytes物件的decode 方法來解碼給定的bytes物件，這個bytes物件可以由str.encode 來編碼返回。encode encoding utf 8...

007 Http之常用編碼

HTTP協議之chunk編碼 分塊傳輸編碼

python之編碼解碼 字串常用方法

python之編碼解碼 字串常用方法

相關推薦

HTTP協議之chunk編碼分塊傳輸編碼

python之編碼解碼字串常用方法

python之編碼解碼字串常用方法