本文實現將gb2312編碼轉換成漢字,並簡單了解一下gb2312編碼。gb2312是資訊交換漢字編碼字符集,適用於漢字處理、漢字通訊等系統之間的資訊交換,通行於中國大陸。使用區位碼表示方式,對所收漢字進行了「分割槽」處理,每區含有94個漢字/符號。
注:
將gb2312編碼轉化為漢字方法:
string string = "ccb8b9fac6bd";
string result = stringtogbk(string);
system.out.println(result);
}// 將gbk編碼轉換成漢字
public string stringtogbk(string string) throws exception
string result = new string(bytes, "gbk");
return result;}
第乙個位元組稱為「高位位元組」(也稱「區位元組)」,第二個位元組稱為「低位位元組」(也稱「位位元組」)。「高位位元組」使用了0xa1-0xf7(把01-87區的區號加上0xa0),「低位位元組」使用了 0xa1-0xfe(把01-94加上 0xa0)。由於一級漢字從16區起始,漢字區的「高位位元組」的範圍是0xb0-0xf7,「低位位元組」的範圍是0xa1-0xfe,占用的碼位是 72*94=6768。其中有5個空位是d7fa-d7fe。
舉例:「啊」字以兩個位元組,0xb0(第乙個位元組) 0xa1(第二個位元組)儲存。
區位碼 = 區位元組 + 位位元組(與區位碼對比:0xb0=0xa0+16,0xa1=0xa0+1)
GB2312編碼範圍
gb2312編碼範圍 a1a1 fefe,其中漢字編碼範圍 b0a1 f7fe。gb2312編碼是第乙個漢字編碼國家標準,由中國國家標準總局1980年發布,1981年5月1日開始使用。gb2312編碼共收錄漢字6763個,其中一級漢字3755個,二級漢字3008個。同時,gb2312編碼收錄了包括拉...
GB2312的編碼規則
gb2312標準共收錄6763個漢字,其中一級漢字3755個,二級漢字3008個 同時,gb2312收錄了包括拉丁字母 希臘字母 日文平假名及片假名字母 俄羅斯語西里爾字母在內的682個全形字符。gb2312的出現,基本滿足了漢字的計算機處理需要,它所收錄的漢字已經覆蓋99.75 的使用頻率。gb2...
編碼學習整理(二) GB2312
gb 2312或gb 2312 80是乙個簡體中文 字符集的中國國家標準,全稱為 資訊交換用漢字編碼字符集 基本集 又稱為gb0,由中國國家標準總局發布,1981年 5月1日實施。gb2312編碼通行於中國大陸 新加坡等地也採用此編碼。中國大陸幾乎所有的中文系統和國際化的軟體都支援gb 2312。g...