關於各種編碼的簡要理解

gb2312：兩個大於127的字元連在一起時，就表示乙個漢字。還重新編碼了acsii，於是被重新編碼的兩個位元組acsii就是常說的「全形」字元，而原來127以下的那些就叫做「半形」字元。

gbk：只要第乙個位元組大於127，就固定表示這是乙個漢字的開始，gbk包括了gb2312的所有內容，同時又增加了近兩萬個新漢字（包括繁體）和符號。

gb18030：增加了幾千個少數名族的字

這一系列漢字編碼標準統稱為dbcs（double byte character set雙位元組字符集）

ansi編碼：就是不同的國家和地區制定了不同的標準的總匯。對於英文檔案是ascii編碼。在簡體中文windows作業系統中，ansi 編碼代表 gbk 編碼；在正體中文windows作業系統中，ansi編碼代表big5；在日文windows作業系統中，ansi 編碼代表 shift_jis 編碼。

unicode：廢了所有的地區性編碼方案，重新編碼了所有字符集，並取名"universal multiple-octet coded character set"，簡稱 ucs, 俗稱 "unicode"。 unicode嚴格來說只是字符集，它為每個字元定義乙個數字序號，沒有編碼方式。

utf-8：utf-8其實就是unicode字符集的編碼方式，它規定了unicode字元如何在計算機中儲存和傳輸等等。

gbk與unicode：unicode重新編碼並沒有考慮到各個國家字元編碼的相容問題，即就gbk編碼而言，unicode並沒有參照gbk的字元對映關係。因此，gbk與unicode對漢字字元的編碼是完全不同的，更別提gbk與utf8的轉換。所以我猜想gbk與unicode的轉換只能根據查詢出來漢字的對比相同與否來判斷了。

unicode和utf8大行其道，為什麼gbk還不被廢棄？

原因：gbk的中文字元佔兩個位元組，utf8編碼下的中文字元佔三個位元組，相比之下，gbk占用記憶體更小，更節省空間

關於各種編碼的簡要理解

關於字元編碼的理解

關於win2000各種服務的簡要說明

C 類的簡要理解（一）

關於各種編碼的簡要理解

關於字元編碼的理解

關於win2000各種服務的簡要說明

C 類的簡要理解（一）

相關推薦