常用的字符集編碼

american standard code for information interchange，美國標準資訊交換**

主要用於顯示現代英語和其他西歐語言。它是現今最通用的單位元組編碼系統，並等同於國際標準iso 646。

ascii 碼使用指定的 7 位或 8 位二進位制數組合來表示 128 或 256 種可能的字元。標準 ascii 碼也叫基礎ascii碼，使用 7 位二進位制數來表示所有的大寫和小寫字母，數字 0 到 9、標點符號，以及在美式英語中使用的特殊控制字元。其中：

0～31及127(共33個)是控制字元或通訊專用字元（其餘為可顯示字元），如控制符：lf（換行）、cr（回車）、ff（換頁）、del（刪除）、bs（退格)、bel（振鈴）等；通訊專用字元：soh（文頭）、eot（文尾）、ack（確認）等；ascii值為 8、9、10 和 13 分別轉換為退格、製表、換行和回車字元。它們並沒有特定的圖形顯示，但會依不同的應用程式，而對文字顯示有不同的影響。

32～126(共95個)是字元(32sp是空格），其中48～57為0到9十個阿拉伯數字；

65～90為26個大寫英文本母，97～122號為26個小寫英文本母，其餘為一些標點符號、運算符號等。

同時還要注意，在標準ascii中，其最高位(b7)用作奇偶校驗位。

後128個稱為擴充套件ascii碼，目前許多基於x86的系統都支援使用擴充套件（或「高」）ascii。擴充套件 ascii 碼允許將每個字元的第 8 位用於確定附加的 128 個特殊符號字元、外來語字母和圖形符號。

gb 2312或gb 2312-80是乙個簡體中文字符集的中國國家標準，全稱為《資訊交換用漢字編碼字符集·基本集》，又稱為gb0，由中國國家標準總局發布，2023年5月1日實施。gb2312編碼通行於中國大陸；新加坡等地也採用此編碼。中國大陸幾乎所有的中文系統和國際化的軟體都支援gb 2312。

gb 2312標準共收錄6763個漢字，其中一級漢字3755個，二級漢字3008個；同時，gb 2312收錄了包括拉丁字母、希臘字母、日文平假名及片假名字母、俄語西里爾字母在內的682個全形字符。

gb 2312的出現，基本滿足了漢字的計算機處理需要，它所收錄的漢字已經覆蓋中國大陸99.75%的使用頻率。

對於人名、古漢語等方面出現的罕用字，gb 2312不能處理，這導致了後來gbk及gb 18030漢字字符集的出現。

gbk是漢字編碼標準之一，全稱《漢字內碼擴充套件規範》（gbk即「國標」、「擴充套件」漢語拼音的第乙個字母，英文名稱：chinese internal code specification），中華人民共和國全國資訊科技標準化技術委員會2023年12月1日制訂，國家技術監督局標準化司、電子工業部科技與質量監督司2023年12月15日聯合以技監標函1995 229號檔案的形式，將它確定為技術規範指導性檔案。

gbk編碼，是在gb2312-80標準基礎上的內碼擴充套件規範，使用了雙位元組編碼方案，其編碼範圍從8140至fefe(剔除xx7f)，共23940個碼位，共收錄了21003個漢字，完全相容gb2312-80標準，支援國際標準iso/iec10646-1和國家標準gb13000-1中的全部中日韓漢字，幷包含了big5編碼中的所有漢字。

gbk 規範收錄了 iso 10646.1 中的全部 cjk 漢字和符號，並有所補充。

gbk 亦採用雙位元組表示，總體編碼範圍為 8140-fefe，首位元組在 81-fe 之間，尾位元組在 40-fe 之間，剔除 xx7f 一條線。總計 23940 個碼位，共收入 21886 個漢字和圖形符號，其中漢字(包括部首和構件)21003 個，圖形符號 883 個。

國家標準gb18030-2005《資訊科技中文編碼字符集》是我國繼gb2312-1980和gb13000.1-1993之後最重要的漢字編碼標準，是我國計算機系統必須遵循的基礎性標準之一。 gb18030有兩個版本：gb18030-2000和gb18030-2005。gb18030-2000是gbk的取代版本，它的主要特點是在gbk基礎上增加了cjk統一漢字擴充a的漢字。gb18030-2005的主要特點是在gb18030-2000基礎上增加了cjk統一漢字擴充b的漢字。

gb 18030字符集標準解決漢字、日文假名、朝鮮語和中國少數民族文字組成的大字符集計算機編碼問題。該標準的字元總編碼空間超過150萬個編碼位，收錄了27484個漢字，覆蓋中文、日文、朝鮮語和中國少數民族文字。並且與unicode 3.0版本相容。

採用單位元組、雙位元組和四位元組三種方式對字元編碼。

unicode(統一碼、萬國碼、單一碼)是一種在計算機上使用的字元編碼。unicode 是為了解決傳統的字元編碼方案的侷限而產生的，它為每種語言中的每個字元設定了統一並且唯一的二進位制編碼，以滿足跨語言、跨平台進行文字轉換、處理的要求。2023年開始研發，2023年正式公布。

每一種語言的不同的編碼頁，增加了那些需要支援不同語言的軟體的複雜度。因而人們制定了乙個世界標準，叫做unicode。unicode為每個字元提供了唯一的特定數值，不論在什麼平台上、不論在什麼軟體中，也不論什麼語言。也就是說，它世界上使用的所有字元都列出來，並給每乙個字元乙個唯一特定數值。

unicode的最初目標，是用1個16位的編碼來為超過65000字元提供對映。但這還不夠，它不能覆蓋全部歷史上的文字，也不能解決傳輸的問題 (implantation head-ache's)，尤其在那些基於網路的應用中。已有的軟體必須做大量的工作來程式16位的資料。

因此，unicode用一些基本的保留字元制定了三套編碼方式。它們分別是utf-8,utf-16和utf-32。正如名字所示，在utf－8中，字元是以8位序列來編碼的，用乙個或幾個位元組來表示乙個字元。這種方式的最大好處，是utf－8保留了ascii字元的編碼做為它的一部分，例如，在 utf－8和ascii中，「a」的編碼都是0x41.

utf－16和utf－32分別是unicode的16位和32位編碼方式。考慮到最初的目的，通常說的unicode就是指utf-16。在討論unicode時，搞清楚哪種編碼方式非常重要。

8-bit unicode transformation format

utf-8是unicode的其中乙個使用方式。utf-8使用可變長度位元組來儲存 unicode字元，例如ascii字母繼續使用1位元組儲存，重音文字、希臘字母或西里爾字母等使用2位元組來儲存，而常用的漢字就要使用3位元組。輔助平面字元則使用4位元組。

大五碼(big5)，又稱為大五碼或者五大碼，是通行於台灣、香港地區的乙個繁體字編碼方案。地區標準號為:cns11643，這就是人們講的big-5碼。2023年由台灣財團法人資訊工業策進會和五間軟體公司巨集碁 (acer)、神通 (mitac)、佳佳、零壹 (zero one)、大眾 (fic)創立，故稱大五碼。

big5字符集共收錄13,053個中文字。

big5碼使用了雙位元組儲存方法，第乙個位元組稱為「高位位元組」，第二個位元組稱為「低位位元組」。

big5的侷限性，沒有考慮社會上流通的人名、地名用字、方言用字、化學及生物科等用字，沒有包含日文平假名及片假名字母。

常用的字符集編碼

字符集 編碼

字符集編碼

字符集編碼

相關推薦

字符集編碼