分類編碼標準說明
單位元組字元編碼
iso-8859-1
最簡單的編碼規則,每乙個位元組直接作為乙個 unicode 字元。比如,[0xd6, 0xd0] 這兩個位元組,通過 iso-8859-1 轉化為字串時,將直接得到 [0x00d6, 0x00d0] 兩個 unicode 字元,即 "öð"。
反之,將 unicode 字串通過 iso-8859-1 轉化為位元組串時,只能正常轉化 0~255 範圍的字元。
ansi 編碼
gb2312,
big5,
shift_jis,
iso-8859-2 ……
把 unicode 字串通過 ansi 編碼轉化為「位元組串」時,根據各自編碼的規定,乙個 unicode 字元可能轉化成乙個位元組或多個位元組。
反之,將位元組串轉化成字串時,也可能多個位元組轉化成乙個字元。比如,[0xd6, 0xd0] 這兩個位元組,通過 gb2312 轉化為字串時,將得到 [0x4e2d] 乙個字元,即 '中' 字。
「ansi 編碼」的特點:
1. 這些「ansi 編碼標準」都只能處理各自語言範圍之內的 unicode 字元。
2. 「unicode 字元」與「轉換出來的位元組」之間的關係是人為規定的。
unicode 編碼
utf-8,
utf-16, unicodebig ……
與「ansi 編碼」類似的,把字串通過 unicode 編碼轉化成「位元組串」時,乙個 unicode 字元可能轉化成乙個位元組或多個位元組。
與「ansi 編碼」不同的是:
1. 這些「unicode 編碼」能夠處理所有的 unicode 字元。
2. 「unicode 字元」與「轉換出來的位元組」之間是可以通過計算得到的。
我們實際上沒有必要去深究每一種編碼具體把某乙個字元編碼成了哪幾個位元組,我們只需要知道「編碼」的概念就是把「字元」轉化成「位元組」就可以了。對 於「unicode 編碼」,由於它們是可以通過計算得到的,因此,在特殊的場合,我們可以去了解某一種「unicode 編碼」是怎樣的規則。
文字編碼簡介
字元編碼概述 下表,按照固定長編碼和可變長編碼進行分類。gb2312和gbk如果從與ascii碼相容的角度來講,也可以認為是可變長編碼。對於ascii碼以外的文字都是2位元組編碼。ucs和unicode在1991年已經統一 ascii編碼 前32個字元 0x00 0x1f 為控制字元 33到126 ...
中文編碼簡介
中文字庫有關的常見編碼有 單位元組編碼 gb2312 80 gb12345 90 gbk unicode編碼 unicode字符集 big5編碼。下面簡要介紹一下 1.gb2312 80 全稱是gb2312 80 資訊交換用漢字編碼字符集 基本集 1980年發布,是中文資訊處理的國家標準,在大陸及海...
字元編碼簡介
ascii ascii american standard code for information interchange,美國資訊交換標準 是一種單位元組編碼。計算機起源於美國,早期計算機中使用的只有英文,沒有其他的語言,而單位元組可以表示 2 8 1 即255 個字元,可以表示所有的英文本元及...