計算機常識之編碼解碼字符集

2021-09-27 02:23:29 字數 628 閱讀 1420

編碼就是將字元對映成二進位制,解碼是將二進位制對映到字元

字符集包括以下幾種:

ascii字符集:共收錄128個字元,所以使用1個位元組來進行編碼

**iso 8859-1 **字符集,共收錄256個字元,是在ascii字符集的基礎上又擴充了128個西歐常用字元

gb2312字符集收錄了漢字以及拉丁字母、希臘字母、日文平假名及片假名字母、俄語西里爾字母。其中收錄漢字6763個,其他文字元號682個。同時這種字符集又相容ascii字符集。

如果該字元在ascii字符集中,則採用1位元組編碼, 否則採用2位元組編碼

gbk字符集在收錄字元範圍上對gb2312字符集作了擴充,編碼方式上相容gb2312

utf8字符集

收錄地球上能想到的所有字元,而且還在不斷擴充。這種字符集相容ascii字符集,採用變長編碼方式,編碼乙個字元需要使用1~4個位元組

utf8只是unicode字符集的一種編碼方案,unicode字符集可以採用utf8、utf16、utf32這幾種編碼方案,utf8使用1~4個位元組編碼乙個字元,utf16使用2個或4個位元組編碼乙個字元,utf32使用4個位元組編碼乙個字元。

編碼字符集

gb2312 全稱中國標準第兩千三百一十二條,其中包含亞裔字符集 南韓文字 缺點不包括正體中文,但是台灣還在使用正體中文,於是就有了 gbk gbk 全稱中國標準第兩千三百一十二條擴充套件版本,就包含正體中文 unicode 全稱萬國碼,各個國家的文字都有 utf 8 最通用的,unicode的公升...

關於計算機字符集編碼

頁是字符集編碼的別名,也有人稱 程式碼頁 早期,頁是ibm稱呼電腦bios本身支援的字符集編碼的名稱。當時通用的作業系統都是命令列介面系統,這些作業系統直接使用bios 的vga功能來顯示字元,作業系統的編碼支援也就依靠bios的編碼。現在這bios 頁被稱為oem 頁。圖形作業系統解決了此問題,圖...

編碼字符集與字符集編碼的區別

無論歷史上的ucs還是現如今的unicode,兩者指的都是編碼字符集,而不是字符集編碼。乙個抽象字符集其實就是指字元的集合,例如所有的英文本母是乙個抽象字符集,所有的漢字是乙個抽象字符集,在給乙個抽象字元集合中的每個字元都分配乙個 整數編號之後 注意這個整數並沒有要求大小 這個字符集就有了順序,就成...