漢字擴充套件內碼規範 — gbk
漢字擴充套件內碼規範 — gbk 的目的是解決漢字收字不足、簡繁同平面共存、簡化**體
系間轉換等漢字資訊交換的瓶頸問題,並在保持已有應用軟體相容性的前提下,向最終
的國際統一雙位元組字符集標準 iso10646.1 邁進。
1 擴充套件的漢字內碼規範的原則
與《資訊交換用漢字編碼字符集--基本集》即國家標準 gb2312-80 的內碼體系標準完
全相容。
在字彙一級支援 iso 10466.1/《cjk統一漢字編碼字符集》即國家標準 gb13000.1的
全部 cjk 漢字。
非漢字符號同時涵蓋大部分常用的《big5》非漢字符號。
2 規範的名稱與簡稱
中文名稱:漢字內碼規範
英文名稱:chinese internal code specification
簡稱: gbk ( k 是「擴充套件」的漢語拼音第乙個字母)
3 規範的內容
適用範圍:
作為非 ucs (iso 10646) 體系的**頁(code page),適用於中文資訊的處理、交
換、儲存、顯現、輸入和輸出。
字彙:
gb2312-80的全部漢字、非漢字符號。
gb13000.1中的其他cjk漢字。
以上兩項合計為 20902 個 gb 化漢字。
《簡化字總表》中尚未收入 gb 13000.1 的 52 個漢字;即,gbk 不但能包括
《現代漢語通用字表》的全部七千個漢字,還能夠包含《簡化字總表》中的全部簡體
字及其對應的繁體字。
《康熙字典》及《辭海》中尚未收入 gb 13000.1 的部首及重要構件共 28 個。
13 個漢字結構符。
《big5》中未被 gb2312--80 收入的、單在 iso 10646.1 中存在的圖形符號
139 個。
正式收入帶音調的拼音字母 30 個和 ɑ、ɡ(按 gb 12345-90 印刷本)。
漢字「o」(gb13001.1** 0x3007「零」)。
gb 12345-90 中編碼的豎排標點符號 19 個,但凡是 ucs 中沒有編碼的暫不收入。
從 iso 10646.1/gb 13000.1 的 cjk 相容區挑選出來的 21 個漢字,以保證若干
big5 (tcacns11643) 檔案、jis 檔案及 ibm 檔案在雙向往返轉換中不致丟失資訊。
31 個 ibm os/2 專用符號,凡是 iso 10646.1/gb 13000.1 已經收入的全部收入
或認同。
漢字字序
gb2312-80 的漢字仍然按照原有的 i 級字,ii 級字,分別按拼音、部首/筆畫排
列。
gb13000.1 的其他cjk漢字,按 ucs **大小順序排列。
追加的80個漢字、部首/構件,與上述兩類字彙分開,按康熙字典頁碼.字位單獨
排列。
碼位分配(略)
總體採用 8140-fefe 的矩形區域,剔除 xx7f 一條線,共 23940 個碼位。
漢字區:21008 個碼位。gb2312-80漢字區 b0a1-f7fe,6768個碼位, 6763個漢
字;gb13000.1擴充漢字區 8140-a0fe的矩形區,剔除 xx7f, 6080 個碼位;aa40-fea0,
剔除 xx7f, 8160 個碼位,其中, 21 個 cjk 相容漢字編碼在 fd9c-fe4f; 80 個增補
漢字/部首/構件在 fe50-fea0。
圖形符號區:1038 個碼位。gb2312-80非漢字區 a1a1-a9fe,846 個碼位,除了原
有的標準字元外,其中還有: 10 個小寫羅馬數字《補充在 a2a1-a2aa, 30 個帶音調拼
音字母及 ɑ、ɡ安排在 a8a1-a8c0, 19 個豎排符號安排在 a6e0-a6f5 之間。gb13000.1
擴充非漢字區a840-a9a0,剔除 xx7f,192 個碼位,big5 非漢字字元、結構符和「o」
排列在此區域。
使用者自定義區: 1894個碼位,aaa1-affe的矩形區, 564 個碼位;f8a1-fefe的矩
形區, 658 個碼位,a140-a7a0 的矩形區, 672 個碼位 (剔除 xx7f)。
gbk 與 gb 13000.1 的對應關係
漢字區和圖形符號區的所有字元,都與 gb 13000.1 已經編碼的字元一一對應。
52 個追加漢字、28 個部首/構件以及 13 個結構符均暫時對應於 gb 13000.1 的
專用區( private use area, e000-f8fe),如果今後這些字元正式收入了 iso 10646/ gb
13000,本規格將作
帶音調的拼音字母,與 gb 13000.1 中 a_zone 的 latin 編碼字元相對應;與 gb
13000.1 不能對應的兩個字母,有待向 sc2/wg2 申請碼位。
gbk 的字形
gbk 字形要與 iso 10646.1/gb 13000.1 保持一致。
在 cjk 漢字認同規則的總框架內,選用「無重碼正形」後的(gb 化)的漢字字形?
mysql查詢5分鐘內的資料
查詢sql語句 select from tb log where createtime date sub now interval 5 minute 函式 描述now 返回當前的日期和時間 curdate 返回當前的日期 curtime 返回當前的時間 date 提取日期或日期 時間表示式的日期部分...
Qt5 讀取txt文字內的中文亂碼
在預設情況下,qt 以 unicode 格式讀取或者寫入文字字元,字元本身沒有問題。亂碼是因為qt不知道將 unicode 字元以何種方式顯示出來。使用qtextcodec來轉換編碼 qfile file c test 01.txt if file.open qiodevice readonly q...
原生App內H5需要注意的問題
1.處理時間字串型別的時候,需要對安卓與ios做乙個判斷處理這是因為 date.parse new date 2018 9 11 0 0 0 android date.parse new date 2018 9 11 0 0 0 ios2.由於安卓的webview預設不開啟dom localstor...