編碼就是將字元對映成二進位制,解碼是將二進位制對映到字元
字符集包括以下幾種:
ascii字符集:共收錄128個字元,所以使用1個位元組來進行編碼
**iso 8859-1 **字符集,共收錄256個字元,是在ascii字符集的基礎上又擴充了128個西歐常用字元
gb2312字符集收錄了漢字以及拉丁字母、希臘字母、日文平假名及片假名字母、俄語西里爾字母。其中收錄漢字6763個,其他文字元號682個。同時這種字符集又相容ascii字符集。
如果該字元在ascii字符集中,則採用1位元組編碼, 否則採用2位元組編碼
gbk字符集在收錄字元範圍上對gb2312字符集作了擴充,編碼方式上相容gb2312
utf8字符集
收錄地球上能想到的所有字元,而且還在不斷擴充。這種字符集相容ascii字符集,採用變長編碼方式,編碼乙個字元需要使用1~4個位元組
utf8只是unicode字符集的一種編碼方案,unicode字符集可以採用utf8、utf16、utf32這幾種編碼方案,utf8使用1~4個位元組編碼乙個字元,utf16使用2個或4個位元組編碼乙個字元,utf32使用4個位元組編碼乙個字元。
編碼字符集
gb2312 全稱中國標準第兩千三百一十二條,其中包含亞裔字符集 南韓文字 缺點不包括正體中文,但是台灣還在使用正體中文,於是就有了 gbk gbk 全稱中國標準第兩千三百一十二條擴充套件版本,就包含正體中文 unicode 全稱萬國碼,各個國家的文字都有 utf 8 最通用的,unicode的公升...
關於計算機字符集編碼
頁是字符集編碼的別名,也有人稱 程式碼頁 早期,頁是ibm稱呼電腦bios本身支援的字符集編碼的名稱。當時通用的作業系統都是命令列介面系統,這些作業系統直接使用bios 的vga功能來顯示字元,作業系統的編碼支援也就依靠bios的編碼。現在這bios 頁被稱為oem 頁。圖形作業系統解決了此問題,圖...
編碼字符集與字符集編碼的區別
無論歷史上的ucs還是現如今的unicode,兩者指的都是編碼字符集,而不是字符集編碼。乙個抽象字符集其實就是指字元的集合,例如所有的英文本母是乙個抽象字符集,所有的漢字是乙個抽象字符集,在給乙個抽象字元集合中的每個字元都分配乙個 整數編號之後 注意這個整數並沒有要求大小 這個字符集就有了順序,就成...