分類: jsp溫故而知新
2013-12-05 11:19
906人閱讀
收藏 舉報
無論在是在編輯文字檔案的時候,還是在製作網頁的時候,總會遇到文字編碼方式的問題。如果處理不當,就會出現亂碼的問題。因此,有必要對文字的編碼方式做乙個詳盡的了解。
常見的一些字元編碼方式無非有:unicode、ascii、gbk、gb2312、utf-8。下面先對常見的這一些字元編碼方式作下說明:
1.ascii碼
這是美國在19世紀60年代的時候為了建立英文本元和二進位制的關係時制定的編碼規範,它能表示128個字元,其中包括英文本元、阿拉伯數字、西文字元以及32個控制字元。它用乙個位元組來表示具體的字元,但它只用後7位來表示字元(2^7=128),最前面的一位統一規定為0。
2.擴充套件的ascii碼
原本的ascii碼對於英文語言的國家是夠用了,但是歐洲國家的一些語言會有拼音,這時7個位元組就不夠用了。因此一些歐洲國家就決定,利用位元組中閒置的最高位編入新的符號。比如,法語中的é的編碼為130(二進位制10000010)。這樣一來,這些歐洲國家使 用的編碼體系,可以表示最多256個符號。但這時問題也出現了:不同的國家有不同的字母,因此,哪怕它們都使用256個符號的編碼方式,代表的字母卻不一樣。比如,130在法語編碼 中代表了é,在希伯來語編碼中卻代表了字母gimel (ג),在俄語編碼中又會代表另乙個符號。但是不管怎樣,所有這些編碼方式中,0—127表示的符號是一樣的,不一樣的只是128—255的這一段。這個問題就直接促使了unicode編碼的產生。
3.unicode符號集
正如上一節所說,世界上存在著多種編碼方式,同乙個二進位制數字可以被解釋成不同的符號。因此,要想開啟乙個文字檔案,就必須知道它的編碼方式,否則用錯誤的編碼方式解讀,就會出現亂碼。為什麼電子郵件常常出現亂碼?就是因為發信人和收信人使用的編碼方式不一樣。而unicode就是這樣一種編碼:它包含了世界上所有的符號,並且每乙個符號都是獨一無二的。比如,u+0639表示阿拉伯字母ain,u+0041表示英語的大寫字母a,u+4e25表示漢字「嚴」。具體的符號對應表,可以查詢unicode.org,或者專門的漢字對應表 。很多人都說unicode編碼,但其實unicode是乙個符號集(世界上所有符號的符號集),而不是一種新的編碼方式。
但是正因為unicode包含了所有的字元,而有些國家的字元用乙個位元組便可以表示,而有些國家的字元要用多個位元組才能表示出來。即產生了兩個問題:第一,如果有兩個位元組的資料,那計算機怎麼知道這兩個位元組是表示乙個漢字呢?還是表示兩個英文本母呢?第二,因為不同字元需要的儲存長度不一樣,那麼如果unicode規定用2個位元組儲存字元,那麼英文本元儲存時前面1個位元組都是0,這就大大浪費了儲存空間。
上面兩個問題造成的結果是:1)出現了unicode的多種儲存方式,也就是說有許多種不同的二進位制格式,可以用來表示unicode。2)unicode在很長一段時間內無法推廣,直到網際網路的出現。
4.utf-8
網際網路的普及,強烈要求出現一種統一的編碼方式。utf-8就是在網際網路上使用最廣的一種unicode的實現方式。其他實現方式還包括utf-16和utf-32,不過在網際網路上基本不用。重複一遍,這裡的關係是,utf-8是unicode的實現方式之一。
utf-8最大的乙個特點,就是它是一種變長的編碼方式。它可以使用1~4個位元組表示乙個符號,根據不同的符號而變化位元組長度。
utf-8的編碼規則很簡單,只有兩條:
1)對於單位元組的符號,位元組的第一位設為0,後面7位為這個符號的unicode碼。因此對於英語字母,utf-8編碼和ascii碼是相同的。
2)對於n位元組的符號(n>1),第乙個位元組的前n位都設為1,第n+1位設為0,後面位元組的前兩位一律設為10。剩下的沒有提及的二進位制位,全部為這個符號的unicode碼。
檔案的時候,還是在製作網頁的時候,總會遇到文字編碼方式的問題。如果處理不當,就會出現亂碼的問題。因此,有必要對文字的編碼方式做乙個詳盡的了解。
常見的一些字元編碼方式無非有:unicode、ascii、gbk、gb2312、utf-8。下面先對常見的這一些字元編碼方式作下說明:
1.ascii碼
這是美國在19世紀60年代的時候為了建立英文本元和二進位制的關係時制定的編碼規範,它能表示128個字元,其中包括英文本元、阿拉伯數字、西文字元以及32個控制字元。它用乙個位元組來表示具體的字元,但它只用後7位來表示字元(2^7=128),最前面的一位統一規定為0。
2.擴充套件的ascii碼
原本的ascii碼對於英文語言的國家是夠用了,但是歐洲國家的一些語言會有拼音,這時7個位元組就不夠用了。因此一些歐洲國家就決定,利用位元組中閒置的最高位編入新的符號。比如,法語中的é的編碼為130(二進位制10000010)。這樣一來,這些歐洲國家使 用的編碼體系,可以表示最多256個符號。但這時問題也出現了:不同的國家有不同的字母,因此,哪怕它們都使用256個符號的編碼方式,代表的字母卻不一樣。比如,130在法語編碼 中代表了é,在希伯來語編碼中卻代表了字母gimel (ג),在俄語編碼中又會代表另乙個符號。但是不管怎樣,所有這些編碼方式中,0—127表示的符號是一樣的,不一樣的只是128—255的這一段。這個問題就直接促使了unicode編碼的產生。
3.unicode符號集
正如上一節所說,世界上存在著多種編碼方式,同乙個二進位制數字可以被解釋成不同的符號。因此,要想開啟乙個文字檔案,就必須知道它的編碼方式,否則用錯誤的編碼方式解讀,就會出現亂碼。為什麼電子郵件常常出現亂碼?就是因為發信人和收信人使用的編碼方式不一樣。而unicode就是這樣一種編碼:它包含了世界上所有的符號,並且每乙個符號都是獨一無二的。比如,u+0639表示阿拉伯字母ain,u+0041表示英語的大寫字母a,u+4e25表示漢字「嚴」。具體的符號對應表,可以查詢unicode.org,或者專門的漢字對應表 。很多人都說unicode編碼,但其實unicode是乙個符號集(世界上所有符號的符號集),而不是一種新的編碼方式。
但是正因為unicode包含了所有的字元,而有些國家的字元用乙個位元組便可以表示,而有些國家的字元要用多個位元組才能表示出來。即產生了兩個問題:第一,如果有兩個位元組的資料,那計算機怎麼知道這兩個位元組是表示乙個漢字呢?還是表示兩個英文本母呢?第二,因為不同字元需要的儲存長度不一樣,那麼如果unicode規定用2個位元組儲存字元,那麼英文本元儲存時前面1個位元組都是0,這就大大浪費了儲存空間。
上面兩個問題造成的結果是:1)出現了unicode的多種儲存方式,也就是說有許多種不同的二進位制格式,可以用來表示unicode。2)unicode在很長一段時間內無法推廣,直到網際網路的出現。
4.utf-8
網際網路的普及,強烈要求出現一種統一的編碼方式。utf-8就是在網際網路上使用最廣的一種unicode的實現方式。其他實現方式還包括utf-16和utf-32,不過在網際網路上基本不用。重複一遍,這裡的關係是,utf-8是unicode的實現方式之一。
utf-8最大的乙個特點,就是它是一種變長的編碼方式。它可以使用1~4個位元組表示乙個符號,根據不同的符號而變化位元組長度。
utf-8的編碼規則很簡單,只有兩條:
1)對於單位元組的符號,位元組的第一位設為0,後面7位為這個符號的unicode碼。因此對於英語字母,utf-8編碼和ascii碼是相同的。
2)對於n位元組的符號(n>1),第乙個位元組的前n位都設為1,第n+1位設為0,後面位元組的前兩位一律設為10。剩下的沒有提及的二進位制位,全部為這個符號的unicode碼。
5.gbk/gb2312/gb18030
gbk和gb2312都是針對簡體字的編碼,只是gb2312只支援六千多個漢字的編碼,而gbk支援1萬多個漢字編碼。而gb18030是用於繁體字的編碼。漢字儲存時都使用兩個位元組來儲存。
總的來說:
ascii編碼:用來表示英文,它使用1個位元組表示,其中第一位規定為0,其他7位儲存資料,一共可以表示128個字元。
gbk/gb2312/gb18030:表示漢字。gbk/gb2312表示簡體中文,gb18030表示正體中文。
unicode編碼:包含世界上所有的字元,是乙個字符集。
utf-8:是unicode字元的實現方式之一,它使用1-4個字元表示乙個符號,根據不同的符號而變化位元組長度。
字元編碼方式(空閒時請再繼續研讀一下這篇文章)
字元常見的幾種編碼方式
不管在是在編輯文字檔案的時候,還是在製作網頁的時候,總會遇到文字編碼方式的問題。假設處理不當,就會出現亂碼的問題。因此,有必要對文字的編碼方式做乙個詳盡的了解。常見的一些字元編碼方式無非有 unicode ascii gbk gb2312 utf 8。以下先對常見的這一些字元編碼方式作下說明 1.a...
字元常見的幾種編碼方式
無論在是在編輯文字檔案的時候,還是在製作網頁的時候,總會遇到文字編碼方式的問題。如果處理不當,就會出現亂碼的問題。因此,有必要對文字的編碼方式做乙個詳盡的了解。常見的一些字元編碼方式無非有 unicode ascii gbk gb2312 utf 8。下面先對常見的這一些字元編碼方式作下說明 1.a...
字元常見的幾種編碼方式
無論在是在編輯文字檔案的時候,還是在製作網頁的時候,總會遇到文字編碼方式的問題。如果處理不當,就會出現亂碼的問題。因此,有必要對文字的編碼方式做乙個詳盡的了解。常見的一些字元編碼方式無非有 unicode ascii gbk gb2312 utf 8。下面先對常見的這一些字元編碼方式作下說明 1.a...