gb2312
收錄簡化漢字及符號、字母、日文假名等共7445個圖形字元,其中漢字佔6763個
每個符號都用兩個位元組表示,每個位元組均採用七位編碼表示,習慣上 第乙個位元組是高位元組,第二個位元組是低位元組
gb2312的編碼範圍為2121h-777eh,與ascii有重疊,通行方法是將gb碼兩個位元組的最高位置1以示區別
gbk
由於gkb收錄的漢字較少以及配合unicode的實施,gbk 產生了
向下相容gb2312
雙位元組表示
gbk共收入21886個漢字和圖形符號,包括:
gb2312中的全部漢字、非漢字符號。
big5中的全部漢字。
與iso 10646相應的國家標準gb13000中的其它cjk漢字,以上合計20902個漢字。
其它漢字、部首、符號,共計984個。
gb18030
最新的漢字編碼字符集國家標準, 向下相容 gbk 和 gb2312 標準
一二四位元組變長編碼
一位元組部分與ascii 編碼相容
二位元組部分與gbk標準基本相容
四位元組部分包括除去二位元組部分的的所有unico3.1碼位(也就是說, gb18030 編碼在碼位空間上做到了與 unicode 標準一一對應,這一點與 utf-8 編碼類似)
big5
繁體字編碼
雙位元組big5收錄13461個漢字和符號,包括:
符號408個
常用字5401個
次常用字7652個
cp936 (gbk)
windows使用**頁(code page)來適應各個國家和地區不同編碼。
code page可以被理解為前面提到 的內碼。gbk對應的code page是cp936。
65001 #utf-8
936 #gbk
437 #美國英語
參考:
漢字編碼問題 GBK GB2312 BIG5
由於常常要和漢字處理打交道,因此,我常常受到漢字編碼問題的困擾。在不斷的打擊與堅持中,也積累了一點漢字編碼方面的經驗,想和大家一起分享。一 漢字編碼的種類 漢字編碼中現在主要用到的有三類,包括gbk,gb2312和big5。1 gb2312又稱國標碼,由國家標準總局發布,1981年5月1日實施,通行...
BB難道沒有GB2312?GBK GB18030?
最近一直困惑在這個上面,在真機和模擬器上都試了下。public void messagesadded folderevent e message email e.getmessage new string email.getbodytext getbytes gbk 標題上的三個返回的都是unsup...
c 漢字轉拼音 GBK,GB2312
參考 using system.text.regularexpressions 利用正規表示式驗證漢字和英文,阿拉伯數字 system.text.regularexpressions.regex reg new system.text.regularexpressions.regex u4e00 u...