編碼學習整理(二) GB2312

2021-04-28 04:46:31 字數 1025 閱讀 9229

gb 2312gb 2312-80是乙個簡體中文

字符集的中國國家標準,全稱為《資訊交換用漢字編碼字符集·基本集》,又稱為gb0,由中國國家標準總局發布,2023年

5月1日實施。gb2312編碼通行於中國大陸;新加坡等地也採用此編碼。中國大陸幾乎所有的中文系統和國際化的軟體都支援gb 2312。

gb 2312標準共收錄6763個漢字,其中一級漢字3755個,二級漢字3008個;同時,gb 2312收錄了包括拉丁字母、希臘字母、日文

平假名及片假名字母、俄語

西里爾字母在內的682個全形字符。

gb 2312的出現,基本滿足了漢字的計算機處理需要,它所收錄的漢字已經覆蓋中國大陸99.75%的使用頻率。

對於人名、古漢語等方面出現的罕用字,gb 2312不能處理,這導致了後來gbk及gb 18030漢字字符集的出現。

gb 2312中對所收漢字進行了「分割槽」處理,每區含有94個漢字/符號。這種表示方式也稱為區位碼。

10-15區及88-94區則未有編碼。

舉例來說,「啊」字是gb2312之中的第乙個漢字,它的區位碼就是1601。

在使用gb2312的程式中,通常採用euc儲存方法,以便相容於ascii。瀏覽器編碼表上的「gb2312」,通常都是指「euc-cn」表示法。

每個漢字及符號以兩個位元組來表示。第乙個位元組稱為「高位位元組」,第二個位元組稱為「低位位元組」。

「高位位元組」使用了0xa1-0xf7(把01-87區的區號加上0xa0),「低位位元組」使用了0xa1-0xfe(把01-94加上 0xa0)。 由於一級漢字從16區起始,漢字區的「高位位元組」的範圍是0xb0-0xf7,「低位位元組」的範圍是0xa1-0xfe,占用的碼位是 72*94=6768。其中有5個空位是d7fa-d7fe。

例如「啊」字在大多數程式中,會以兩個位元組,0xb0(第乙個位元組)0xa1(第二個位元組)儲存。(與區位碼對比:0xb0=0xa0+16,0xa1=0xa0+1)。

GB2312編碼範圍

gb2312編碼範圍 a1a1 fefe,其中漢字編碼範圍 b0a1 f7fe。gb2312編碼是第乙個漢字編碼國家標準,由中國國家標準總局1980年發布,1981年5月1日開始使用。gb2312編碼共收錄漢字6763個,其中一級漢字3755個,二級漢字3008個。同時,gb2312編碼收錄了包括拉...

GB2312的編碼規則

gb2312標準共收錄6763個漢字,其中一級漢字3755個,二級漢字3008個 同時,gb2312收錄了包括拉丁字母 希臘字母 日文平假名及片假名字母 俄羅斯語西里爾字母在內的682個全形字符。gb2312的出現,基本滿足了漢字的計算機處理需要,它所收錄的漢字已經覆蓋99.75 的使用頻率。gb2...

gb2312學習筆記

1,gb 2312中對所收漢字進行了 分割槽 處理,每區含有94個漢字 符號。01 09區為特殊符號。16 55區為一級漢字,按拼音排序。56 87區為二級漢字,按部首 筆畫排序。10 15區及88 94區則未有編碼。舉例來說,啊 字是gb2312之中的第乙個漢字,它的區位碼就是1601。2,在使用...