計算機基礎 常用編碼格式

2021-10-07 20:56:46 字數 1037 閱讀 4150

美國資訊交換標準**(american standard code for information interchange,ascii)是基於拉丁字母的一套計算機編碼系統,主要用於顯示現代英語和其他西歐語言。ascii 是現今最通用的單位元組編碼系統,並等同於國際標準 iso/iec 646。

乙個英文本母(不分大小寫)佔 1 位元組的空間,乙個中文漢字佔 2 位元組的空間。乙個二進位制數字序列,在計算機中作為乙個數字單元,一般為 8 位二進位制數,換算為十進位制後,最小值為 0,最大值為 255。例如,乙個 ascii 碼就是 1 位元組。

unicode(又稱統一碼、萬國碼或單一碼)是電腦科學領域裡的一項業界標準,包括字符集、編碼方案等。unicode 是為了解決傳統的字元編碼方案的侷限性而產生的,它為每種語言中的每個字元設定統一並且唯一的二進位制編碼,以滿足跨語言、跨平台進行文字轉換、處理的要求。

最初的 unicode 編碼採用固定長度的 16 位,也就是 2 位元組代表乙個字元,這樣一共可以表示 65536 個字元。顯然,要表示各種語言中所有的字元,這是遠遠不夠的。unicode 4.0 規範考慮到了這種情況,定義了一組附加字元編碼,附加字元編碼採用兩個 16 位來表示,這樣最多可以定義 1048576 個附加字元,在 unicode 4.0 規範中只定義了 45960 個附加字元,在 unicode 5.0 版本中已定義的字元有 238605 個。

unicode 只是一種編碼規範,目前實際實現的 unicode 編碼只有 3 種——utf-8、ucs-2 和 utf-16。這 3 種 unicode 字符集之間可以按照規範進行轉換。

utf-8(8-bit unicode transformation format)是一種針對 unicode 的可變長度字元編碼,又稱萬國碼。utf-8 由 ken thompson 於 1992 年建立,現在已經標準化為 rfc 3629。utf-8 用 1 ~ 6 位元組編碼 unicode 字元,用在網頁上,可以統一頁面顯示的中文簡體及其他語言(如英文、日文、韓文)。乙個 utf-8 英文本元等於 1 位元組。乙個 utf-8 中文(含繁體)字元,少數占用 3 位元組,多數占用 4 位元組。乙個 utf-8 數字占用 1 位元組。

計算機常用編碼

1 常用編碼介紹 1 ascii碼表,只有0 127,128位,使用了乙個位元組的低7位,剩餘的128位作為擴充套件 2 iso 8859 使用了ascii碼剩餘的128位作為擴充套件,常用 iso 8859 1 3 gb2312 中文簡體字集,包含6763個簡體中文本 4 big5大五碼,繁體字集...

計算機編碼格式總結

1.ascii 我們知道,計算機內部,所有資訊最終都是乙個二進位制值。每乙個二進位制位 bit 有0和1兩種狀態,因此八個二進位制位就可以組合出256種狀態,這被稱為乙個位元組 byte 也就是說,乙個位元組一共可以用來表示256種不同的狀態,每乙個狀態對應乙個符號,就是256個符號,從000000...

計算機常用編碼方式

常用編碼方式 標準ascii碼 擴充套件ascii碼 utf 8 utf 16。用乙個位元組大小表示常用的字元,最開始ascii碼只表示128個字元,只需要7位表示,最高位統一用0表示。ascii碼編碼方式通過大端方式對齊。不同國家,使用的字元不一致,僅僅128個字元不夠使用,所以針對本國字元特點,...