字符集(charset):是乙個系統支援的所有抽象字元的集合。字元是各種文字和符號的總稱,包括各國家文字、標點符號、圖形符號、數字等。
字元編碼:是一套規則,將字元和二進位制資料建立對映關係。
1、ascll(american standard code for information interchange):它包含乙個位元組,128個字元;
2、eascll:包含256個字元,它是對ascall的擴充套件。
3、iso-8859:計算機傳到歐洲之後,之前的字符集不夠使用了,國際標準化組織對ascll做了擴充套件,類似eascll,因為歐洲語言環境複雜,出現了很多子標準,例如iso-8859-1、iso-8859-2.....
4、gb2312:當傳到亞洲之後,國際化標準也不夠用了,256個字元遠遠滿足不了需求,擴充套件為雙位元組,16bit。gb2312為中文編碼,包含6763個漢字。
**專家把那些127號之後的奇異符號們(即eascii)取消掉,規定:乙個小於127的字元的意義與原來相同,但兩個大於127的字元連在一起時,就表示乙個漢字,前面的乙個位元組(他稱之為高位元組)從0xa1用到 0xf7,後面乙個位元組(低位元組)從0xa1到0xfe,這樣我們就可以組合出大約7000多個簡體漢字了。在這些編碼裡,還把數學符號、羅馬希臘的 字母、日文的假名們都編進去了,連在ascii裡本來就有的數字、標點、字母都統統重新編了兩個位元組長的編碼,這就是常說的"全形"字元,而原來在127號以下的那些就叫"半形"字元了。
5、gbk:就是對gb2312的擴充套件。
6、unicode:統一碼、萬國碼、單一碼、標準萬國碼。當計算機傳遍全世界的時候,unicode 出現了。unicode 是字符集,utf-8、utf-16、utf-32是編碼方案。unicode 包含4個位元組,32bit。
7、utf-32(ucs-4):包含4個位元組,對unicode中的每乙個字元都使用4個位元組,浪費空間;但是也有優點,它可以在字串中快速定位到指定字元
8、utf-16:包含2個位元組,16bit。因為常用字元不會超過65536,這樣可以節省一半的空間,相比utf-32.對於超過的部分,也有其他方法可以解決。
9、utf-8:可變長度位元組編碼,採用1到4個位元組來為unicode字元編碼。
字元歷史:
字元詳情:
utf-8的詳細解釋:
字元 字符集 字元編碼
字元是指計算機 中使用的字母 數字 字和符號 包括 1 2 3 a b c 等等。在 ascii 編碼中,乙個英文本母字元儲存需要1個位元組。在 gb 2312 編碼或 gbk 編碼中,乙個漢字 字元儲存需要2個位元組 在utf 8編碼中,乙個英文本母字元儲存需要1個位元組,乙個漢字字元儲存需要3到...
字符集 編碼
字符集概念 1 字符集 可以表示的字元和字元對應計算機位元組碼的對映 2 字元編碼方式 計算機中用來表示和傳輸如前所述字符集中對映的位元組碼的編碼方式。對於ascii和gb2312等字符集,他們在傳輸和計算機表示時的位元組碼不用編碼,直接用字元對應的位元組碼表示。但比如unicode 字符集,就有多...
字符集編碼
喬哥 小萌,聽說你去面試了,怎麼樣啊?小萌 哎 喬哥,你給我講講什麼是字符集和編碼唄,ascii,utf 8,utf 16,utf 32又是啥?喬哥 好的,在搞懂字符集先來講講什麼是編碼吧 在計算機底層,比如說你的名字 小萌 在計算機中並不是文字的形式,而是一串二進位制數字,如 0110011001...