gb18030編碼格式了解和應用

2021-08-02 06:36:40 字數 981 閱讀 3577

編碼格式經常用的有utf-8、gbk,之前用eclipse開發的時候預設格式就是gbk,現在換成as後預設格式變成了標準的utf-8。最近做銀行業務發現其報文用16進製制字串轉成byte陣列後,再分別用utf-8和gbk轉碼都會有亂碼的情況出現。使用utf-8轉碼時由於全部是亂碼因此判定utf-8編碼肯定是不規範的,使用gbk轉碼發現有部分字是亂碼於是進入正文開始了對編碼格式的研究。

亂碼的部分是維文,通過度娘了解到乙個維文是由四個位元組組成,與在gbk編碼下乙個漢字兩個位元組不同。便假設維文採用的unicode編碼經測試發現假設是錯誤的,於是又轉到gb編碼上來尋找合適的編碼格式。一下是搜尋到的中文編碼格式。

gb2312編碼:2023年5月1日發布的簡體中文漢字編碼國家標準。gb2312對漢字採用雙位元組編碼,收錄7445個圖形字元,其中包括     6763個漢字。 

big5編碼:台灣地區正體中文標準字符集,採用雙位元組編碼,共收錄13053個中文字,2023年實施。

gbk編碼:2023年12月發布的漢字編碼國家標準,是對gb2312編碼的擴充,對漢字採用雙位元組編碼。gbk字符集共收錄21003個漢     字,包含國家標準gb13000-1中的全部中日韓漢字,和big5編碼中的所有漢字。

gb18030編碼:2023年3月17日發布的漢字編碼國家標準,是對gbk編碼的擴充,覆蓋中文、日文、朝鮮語和中國少數民族文字, 其   中收錄27484個漢字。gb18030字符集採用單位元組、雙位元組和四位元組三種方式對字元編碼。相容gbk和gb2312字符集。

unicode編碼:國際標準字符集,它將世界各種語言的每個字元定義乙個唯一的編碼,以滿足跨語言、跨平台的文字資訊轉換。

gb18030編碼覆蓋中、日、朝鮮、少數民族文字,採用單位元組、雙位元組、四位元組三種字元編碼,維文即使中過少數名字文字又是四位元組編碼,gb18030沒理由不支援轉碼,經測試發現假設正確。

Unicode 轉化 GB18030 編碼 方法

頁詳細知識 int fgetline file fp,char ch,int size 1024 ch i 1 0 return i 1 int unicode fgetline file fp,wchar t wch,int size 1024 wch i 1 0 return i 1 int r...

讓程式支援gb18030

讓程式支援gb18030 據說gb18030已經是ucs 4標準的一部分了,而現有的win32程式本質上是ucs 2的,原理上只要將ucs 2公升級為ucs 4就可以gb18030了。在vc中,打了ms的補丁,可以使用exttextoutl實現顯示乙個gb18030字元,不過字型一定要選對,就是 宋...

GB18030的相關介紹

gb18030 2000編碼標準簡 介 gb18030 2000編碼標 準是由資訊 產業部和國家質量技 術監督局在2000年 3月17日聯合 發布的,並且將作為一 項國家標準在明年的1月正式強制 執行。1.概述 gb18030 2000編碼標 準是在原來的 gb2312 1980 編碼標 準和 gb...