GB2312的編碼規則

2022-05-01 17:24:44 字數 764 閱讀 7662

gb2312標準共收錄6763個漢字,其中一級漢字3755個,二級漢字3008個;同時,gb2312收錄了包括拉丁字母、希臘字母、日文平假名及片假名字母、俄羅斯語西里爾字母在內的682個全形字符。             

gb2312的出現,基本滿足了漢字的計算機處理需要,它所收錄的漢字已經覆蓋99.75%的使用頻率。gb2312中對所收漢字進行了「分割槽」處理,每區含有94個漢字/符號。這種表示方式也稱為區位碼。          

01-09區為特殊符號。          

16-55區為一級漢字,按拼音排序。           

56-87區為二級漢字,按部首/筆畫排序。          

10-15區及88-94區則未有編碼。        

舉例來說,「啊」字是gb2312之中的第乙個漢字,它的區位碼就是1601。位元組結構在使用gb2312的程式中,通常採用euc儲存方法,以便相容於ascii。每個漢字及符號以兩個位元組來表示。第乙個位元組稱為「高位位元組」,第二個位元組稱為「低位位元組」。 「高位位元組」使用了0xa1-0xf7(把01-87區的區號加上0xa0),「低位位元組」使用了0xa1-0xfe(把01-94加上0xa0)。例如「啊」字在大多數程式中,會以0xb0a1儲存。(與區位碼對比:0xb0=0xa0+16,0xa1=0xa0+1)。        

所以gb2312編碼中漢字區碼的十進位制是從176到247,位碼是從161到255.之所以儲存了6763小於82*94=6768,是因為在區碼為215,位碼為250-254之間共五個編碼沒有漢字編碼,所以6768-5=6763個。

GB2312編碼範圍

gb2312編碼範圍 a1a1 fefe,其中漢字編碼範圍 b0a1 f7fe。gb2312編碼是第乙個漢字編碼國家標準,由中國國家標準總局1980年發布,1981年5月1日開始使用。gb2312編碼共收錄漢字6763個,其中一級漢字3755個,二級漢字3008個。同時,gb2312編碼收錄了包括拉...

編碼學習整理(二) GB2312

gb 2312或gb 2312 80是乙個簡體中文 字符集的中國國家標準,全稱為 資訊交換用漢字編碼字符集 基本集 又稱為gb0,由中國國家標準總局發布,1981年 5月1日實施。gb2312編碼通行於中國大陸 新加坡等地也採用此編碼。中國大陸幾乎所有的中文系統和國際化的軟體都支援gb 2312。g...

關於gb2312編碼的xml解析

在ios專案中遇到這樣乙個問題,需要讀取遠端的xml檔案,進行解析,但是目標xml是gb2312編碼的,用system.text.encoding.getencoding gb2312 並不奏效。提示 encoding name gb2312 not supported 查了下才知道getencod...