常用的字符集編碼

2022-08-21 10:00:19 字數 3296 閱讀 6032

american standard code for information interchange,美國標準資訊交換**

主要用於顯示現代英語和其他西歐語言。它是現今最通用的單位元組編碼系統,並等同於國際標準iso 646。

ascii 碼使用指定的 7 位或 8 位二進位制數組合來表示 128 或 256 種可能的字元。標準 ascii 碼也叫基礎ascii碼,使用 7 位二進位制數來表示所有的大寫和小寫字母,數字 0 到 9、標點符號, 以及在美式英語中使用的特殊控制字元。其中:

0~31及127(共33個)是控制字元或通訊專用字元(其餘為可顯示字元),如控制符:lf(換行)、cr(回車)、ff(換頁)、del(刪除)、bs(退格)、bel(振鈴)等;通訊專用字元:soh(文頭)、eot(文尾)、ack(確認)等;ascii值為 8、9、10 和 13 分別轉換為退格、製表、換行和回車字元。它們並沒有特定的圖形顯示,但會依不同的應用程式,而對文字顯示有不同的影響。

32~126(共95個)是字元(32sp是空格),其中48~57為0到9十個阿拉伯數字;

65~90為26個大寫英文本母,97~122號為26個小寫英文本母,其餘為一些標點符號、運算符號等。

同時還要注意,在標準ascii中,其最高位(b7)用作奇偶校驗位。

後128個稱為擴充套件ascii碼,目前許多基於x86的系統都支援使用擴充套件(或「高」)ascii。擴充套件 ascii 碼允許將每個字元的第 8 位用於確定附加的 128 個特殊符號字元、外來語字母和圖形符號。

gb 2312或gb 2312-80是乙個簡體中文字符集的中國國家標準,全稱為《資訊交換用漢字編碼字符集·基本集》,又稱為gb0,由中國國家標準總局發布,2023年5月1日實施。gb2312編碼通行於中國大陸;新加坡等地也採用此編碼。中國大陸幾乎所有的中文系統和國際化的軟體都支援gb 2312。

gb 2312標準共收錄6763個漢字,其中一級漢字3755個,二級漢字3008個;同時,gb 2312收錄了包括拉丁字母、希臘字母、日文平假名及片假名字母、俄語西里爾字母在內的682個全形字符。

gb 2312的出現,基本滿足了漢字的計算機處理需要,它所收錄的漢字已經覆蓋中國大陸99.75%的使用頻率。

對於人名、古漢語等方面出現的罕用字,gb 2312不能處理,這導致了後來gbk及gb 18030漢字字符集的出現。

gbk是漢字編碼標準之一,全稱《漢字內碼擴充套件規範》(gbk即「國標」、「擴充套件」漢語拼音的第乙個字母,英文名稱:chinese internal code specification) ,中華人民共和國全國資訊科技標準化技術委員會2023年12月1日制訂,國家技術監督局標準化司、電子工業部科技與質量監督司2023年12月15日聯合以技監標函1995 229號檔案的形式,將它確定為技術規範指導性檔案。

gbk編碼,是在gb2312-80標準基礎上的內碼擴充套件規範,使用了雙位元組編碼方案,其編碼範圍從8140至fefe(剔除xx7f),共23940個碼位,共收錄了21003個漢字,完全相容gb2312-80標準,支援國際標準iso/iec10646-1和國家標準gb13000-1中的全部中日韓漢字,幷包含了big5編碼中的所有漢字。

gbk 規範收錄了 iso 10646.1 中的全部 cjk 漢字和符號,並有所補充。

gbk 亦採用雙位元組表示,總體編碼範圍為 8140-fefe,首位元組在 81-fe 之間,尾位元組在 40-fe 之間,剔除 xx7f 一條線。總計 23940 個碼位,共收入 21886 個漢字和圖形符號,其中漢字(包括部首和構件)21003 個,圖形符號 883 個。

國家標準gb18030-2005《資訊科技 中文編碼字符集》是我國繼gb2312-1980和gb13000.1-1993之後最重要的漢字編碼標準,是我國計算機系統必須遵循的基礎性標準之一。 gb18030有兩個版本:gb18030-2000和gb18030-2005。gb18030-2000是gbk的取代版本,它的主要特點是在gbk基礎上增加了cjk統一漢字擴充a的漢字。gb18030-2005的主要特點是在gb18030-2000基礎上增加了cjk統一漢字擴充b的漢字。

gb 18030字符集標準解決漢字、日文假名、朝鮮語和中國少數民族文字組成的大字符集計算機編碼問題。該標準的字元總編碼空間超過150萬個編碼位,收錄了27484個漢字,覆蓋中文、日文、朝鮮語和中國少數民族文字。並且與unicode 3.0版本相容。

採用單位元組、雙位元組和四位元組三種方式對字元編碼。

unicode(統一碼、萬國碼、單一碼)是一種在計算機上使用的字元編碼。unicode 是為了解決傳統的字元編碼方案的侷限而產生的,它為每種語言中的每個字元設定了統一並且唯一的二進位制編碼,以滿足跨語言、跨平台進行文字轉換、處理的要求。2023年開始研發,2023年正式公布。

每一種語言的不同的編碼頁,增加了那些需要支援不同語言的軟體的複雜度。因而人們制定了乙個世界標準,叫做unicode。unicode為每個字元提供了唯一的特定數值,不論在什麼平台上、不論在什麼軟體中,也不論什麼語言。也就是說,它世界上使用的所有字元都列出來,並給每乙個字元乙個唯一特定數值。

unicode的最初目標,是用1個16位的編碼來為超過65000字元提供對映。但這還不夠,它不能覆蓋全部歷史上的文字,也不能解決傳輸的問題 (implantation head-ache's),尤其在那些基於網路的應用中。已有的軟體必須做大量的工作來程式16位的資料。

因此,unicode用一些基本的保留字元制定了三套編碼方式。它們分別是utf-8,utf-16和utf-32。正如名字所示,在utf-8中, 字元是以8位序列來編碼的,用乙個或幾個位元組來表示乙個字元。這種方式的最大好處,是utf-8保留了ascii字元的編碼做為它的一部分,例如,在 utf-8和ascii中,「a」的編碼都是0x41.

utf-16和utf-32分別是unicode的16位和32位編碼方式。考慮到最初的目的,通常說的unicode就是指utf-16。在討論unicode時,搞清楚哪種編碼方式非常重要。

8-bit unicode transformation format

utf-8是unicode的其中乙個使用方式。utf-8使用可變長度位元組來儲存 unicode字元,例如ascii字母繼續使用1位元組儲存,重音文字、希臘字母或西里爾字母等使用2位元組來儲存,而常用的漢字就要使用3位元組。輔助平面字元則使用4位元組。

大五碼(big5),又稱為大五碼或者五大碼,是通行於台灣、香港地區的乙個繁體字編碼方案。地區標準號為:cns11643,這就是人們講的big-5碼。2023年由台灣財團法人資訊工業策進會和五間軟體公司巨集碁 (acer)、神通 (mitac)、佳佳、零壹 (zero one)、大眾 (fic)創立,故稱大五碼。

big5字符集共收錄13,053個中文字。

big5碼使用了雙位元組儲存方法,第乙個位元組稱為「高位位元組」,第二個位元組稱為「低位位元組」。

big5的侷限性,沒有考慮社會上流通的人名、地名用字、方言用字、化學及生物科等用字,沒有包含日文平假名及片假名字母。

字符集 編碼

字符集概念 1 字符集 可以表示的字元和字元對應計算機位元組碼的對映 2 字元編碼方式 計算機中用來表示和傳輸如前所述字符集中對映的位元組碼的編碼方式。對於ascii和gb2312等字符集,他們在傳輸和計算機表示時的位元組碼不用編碼,直接用字元對應的位元組碼表示。但比如unicode 字符集,就有多...

字符集編碼

喬哥 小萌,聽說你去面試了,怎麼樣啊?小萌 哎 喬哥,你給我講講什麼是字符集和編碼唄,ascii,utf 8,utf 16,utf 32又是啥?喬哥 好的,在搞懂字符集先來講講什麼是編碼吧 在計算機底層,比如說你的名字 小萌 在計算機中並不是文字的形式,而是一串二進位制數字,如 0110011001...

字符集編碼

references 字元編碼中ascii unicode和utf 8的區別 ascii碼 unicode編碼 utf 8編碼的區別 條目ascii unicode utf 8 占用byte數 12,不常用的字元占用4個 變長的編碼方式,將乙個unicode字元編碼成1 6個字元。常用的英文本母被編...