常見編碼格式

中文編碼主要有以下四種：

gb2312:簡體中文編碼，乙個漢字占用2位元組，在大陸是主要編碼方式。當文章/網頁中包含正體中文、日文、韓文等等時，這些內容可能無法被正確編碼。

big5:正體中文編碼。主要在台灣地區採用。

gbk:支援簡體及正體中文，但對他國非拉丁字母語言還是有問題。

utf-8:unicode編碼的一種。unicode用一些基本的保留字元制定了三套編碼方式，它們分別utf-8,utf-16和utf-32。在utf－8中，字元是以8位序列來編碼的，用乙個或幾個位元組來表示乙個字元。這種方式的最大好處，是utf－8保留了ascii字元的編碼做為它的一部分。utf-8俗稱「萬國碼」，可以同屏顯示多語種，乙個漢字占用3位元組。為了做到國際化，網頁應盡可能採用utf-8編碼。

當然，處理中文時http頭也要改成utf-8編碼的-----加上。

字符集

常用字符集分類

ascii及其擴充套件字符集

作用：表語英語及西歐語言。

位數：ascii是用7位表示的，能表示128個字元；其擴充套件使用8位表示，表示256個字元。

範圍：ascii從00到7f，擴充套件從00到ff。

iso-8859-1字符集

作用：擴充套件ascii，表示西歐、希臘語等。

位數：8位，

範圍：從00到ff，相容ascii字符集。

gb2312字符集

作用：國家簡體中文字符集，相容ascii。

位數：使用2個位元組表示，能表示7445個符號，包括6763個漢字，幾乎覆蓋所有高頻率漢字。

範圍：高位元組從a1到f7, 低位元組從a1到fe。將高位元組和低位元組分別加上0xa0即可得到編碼。

big5字符集

作用：統一繁體字編碼。

位數：使用2個位元組表示，表示13053個漢字。

範圍：高位元組從a1到f9，低位元組從40到7e，a1到fe。

gbk字符集

作用：它是gb2312的擴充套件，加入對繁體字的支援，相容gb2312。

位數：使用2個位元組表示，可表示21886個字元。

範圍：高位元組從81到fe，低位元組從40到fe。

gb18030字符集

作用：它解決了中文、日文、朝鮮語等的編碼，相容gbk。

位數：它採用變位元組表示(1 ascii，2，4位元組)。可表示27484個文字。

範圍：1位元組從00到7f; 2位元組高位元組從81到fe，低位元組從40到7e和80到fe；4位元組第一三位元組從81到fe，第二四位元組從30到39。

ucs字符集

作用：國際標準 iso 10646 定義了通用字符集 (universal character set)。它是與unicode同類的組織，ucs-2和unicode相容。

位數：它有ucs-2和ucs-4兩種格式，分別是2位元組和4位元組。

範圍：目前，ucs-4只是在ucs-2前面加了0x0000。

unicode字符集

作用：為世界650種語言進行統一編碼，相容iso-8859-1。

位數：unicode字符集有多個編碼方式，分別是utf-8，utf-16和utf-32。

按所表示的文字分類

語言字符集正式名稱

英語、西歐語 ascii，iso-8859-1 mbcs 多位元組

簡體中文 gb2312 mbcs 多位元組

正體中文 big5 mbcs 多位元組

簡繁中文 gbk mbcs 多位元組

中文、日文及朝鮮語 gb18030 mbcs 多位元組

各國語言 unicode，ucs dbcs 寬位元組

常見編碼格式

中文編碼主要有以下四種 gb2312簡體中文編碼，乙個漢字占用2個位元組，在大陸是主要的編碼方式。當文章網頁中包含正體中文日文韓文等時，這些內容可能無法被正確編碼。big5正體中文編碼，主要在台灣地區使用。gbk支援簡體及正體中文，但對他國非拉丁字母語言還是有問題。utf 8 unicode編...

常見編碼格式（中文編碼）

中文編碼 1 常見中文編碼格式

為什麼要有中文編碼格式？最早的ascii碼只包括了字母標點符號特殊字元等127個字元。這些字元對於拉丁語系國家的人使用是足夠的，但是對於非拉丁語系國家如中國日本等 ascii碼就遠遠不夠了。因此就需要編碼來表示大量的漢字字元。常用的幾種中文編碼格式 1 unicode編碼 unicode編碼...

常見編碼格式

常見編碼格式

常見編碼格式（中文編碼）

中文編碼 1 常見中文編碼格式

相關推薦