漢字編碼 (GB2312 GBK GB18030)

2021-09-07 14:20:32 字數 1034 閱讀 6936

gb2312

收錄簡化漢字及符號、字母、日文假名等共7445個圖形字元,其中漢字佔6763個

每個符號都用兩個位元組表示,每個位元組均採用七位編碼表示,習慣上 第乙個位元組是高位元組,第二個位元組是低位元組

gb2312的編碼範圍為2121h-777eh,與ascii有重疊,通行方法是將gb碼兩個位元組的最高位置1以示區別

gbk

由於gkb收錄的漢字較少以及配合unicode的實施,gbk 產生了

向下相容gb2312

雙位元組表示

gbk共收入21886個漢字和圖形符號,包括:

gb2312中的全部漢字、非漢字符號。

big5中的全部漢字。

與iso 10646相應的國家標準gb13000中的其它cjk漢字,以上合計20902個漢字。

其它漢字、部首、符號,共計984個。

gb18030

最新的漢字編碼字符集國家標準, 向下相容 gbk 和 gb2312 標準

一二四位元組變長編碼

一位元組部分與ascii 編碼相容

二位元組部分與gbk標準基本相容

四位元組部分包括除去二位元組部分的的所有unico3.1碼位(也就是說, gb18030 編碼在碼位空間上做到了與 unicode 標準一一對應,這一點與 utf-8 編碼類似)

big5

繁體字編碼

雙位元組big5收錄13461個漢字和符號,包括:

符號408個

常用字5401個

次常用字7652個

cp936 (gbk)

windows使用**頁(code page)來適應各個國家和地區不同編碼。

code page可以被理解為前面提到 的內碼。gbk對應的code page是cp936。

65001 #utf-8

936 #gbk

437 #美國英語

參考:

漢字編碼問題 GBK GB2312 BIG5

由於常常要和漢字處理打交道,因此,我常常受到漢字編碼問題的困擾。在不斷的打擊與堅持中,也積累了一點漢字編碼方面的經驗,想和大家一起分享。一 漢字編碼的種類 漢字編碼中現在主要用到的有三類,包括gbk,gb2312和big5。1 gb2312又稱國標碼,由國家標準總局發布,1981年5月1日實施,通行...

BB難道沒有GB2312?GBK GB18030?

最近一直困惑在這個上面,在真機和模擬器上都試了下。public void messagesadded folderevent e message email e.getmessage new string email.getbodytext getbytes gbk 標題上的三個返回的都是unsup...

c 漢字轉拼音 GBK,GB2312

參考 using system.text.regularexpressions 利用正規表示式驗證漢字和英文,阿拉伯數字 system.text.regularexpressions.regex reg new system.text.regularexpressions.regex u4e00 u...