DB2 不同編碼格式下的漢字所佔位元組

2021-09-08 05:17:28 字數 922 閱讀 7312

utf-8 (8-bit unicode transformation format)是一種針對unicode的可變長度字元編碼,又稱萬國碼,它包含全世界所有國家需要用到的字元,是國際編碼,通用性強,是用以解決國際上字元的一種多位元組編碼。由ken thompson於2023年建立。utf-8用1到4個位元組編碼unicode字元,它對英文使用8位/8bit(即1個位元組/1byte),中文使用24位/24bit(3個位元組/3byte)來編碼。用在網頁上可以同一頁面顯示中文簡體繁體及其它語言(如日文,韓文)。

gbk (chinese internal code specification)是漢字編碼標準之一,全稱《漢字內碼擴充套件規範》,中華人民共和國全國資訊科技標準化技術委員會2023年12月1日制訂,國家技術監督局標準化司、電子工業部科技與質量監督司2023年12月15日聯合以技監標函1995 229號檔案的形式,將它確定為技術規範指導性檔案。

gbk是國家標準gb2312基礎上擴容後相容gb2312的標準(gb2312共收錄了7445個字元,包括6763個漢字和682個其它符號;gbk共收錄了27484個漢字,同時還收錄了藏文、蒙文、維吾爾文等主要的少數民族文字)。gbk的文字編碼是用雙位元組來表示的,即不論中、英文本元均使用雙位元組來表示(注意,gb系列編碼是利用了位元組中的最高位和ascii編碼區分的,可以和ascii碼混用。所以全形模式下英文是2位元組,半形模式英文還是1位元組)。為了區分中文,將其最高位都設定成1。gbk包含全部中文字元,是國家編碼,通用性比utf8差,不過utf8占用的資料庫比gbd大。

簡單概況就是:

utf-8英文1位元組中文3位元組,在編碼效率和編碼安全性之間做了平衡,適合網路傳輸,是理想的中文編碼方式.

gbk英文1位元組(半形1位元組,全形2位元組),中文2位元組,gbk的範圍比gb2312廣,gbk相容gb2312。

DB2 不同編碼格式下的漢字所佔位元組

utf 8 8 bit unicode transformation format 是一種針對unicode的可變長度字元編碼,又稱萬國碼,它包含全世界所有國家需要用到的字元,是國際編碼,通用性強,是用以解決國際上字元的一種多位元組編碼。由ken thompson於1992年建立。utf 8用1到4...

DB2中獲取漢字的長度

參考 db2 9 中基於字元的字串函式 db2 9 for linux,unix,and windows 的字串單元分別為 octets codeunits16 和 codeunits32。對於單位元組字元編碼模式,乙個位元組組成乙個字元,單位元組字串的長度與字串的位元組長度相同。對於圖形字串,兩個...

Linux下DB2的安裝

今天安裝了db2,忙了好一陣子,上網找資料等,終於裝好了,下面就把我的步驟跟大家分享一下。第一步 檢查程式包及其版本 compat libstdc 7.3 2.96.118.i386.rpm 在linux的安裝盤上,找到後使用rpm i compat libstdc 7.3 2.96.118.i38...