檔案及其編碼

2021-08-13 15:46:01 字數 720 閱讀 8126

1、計算機中的各種檔案本質上都是以二進位制的形式存在的,之所以有各種型別的檔案,是因為不同型別的檔案使用的編碼方式不一樣。

2、標準ascii編碼(american standard code for information interchange),使用8個bit編碼乙個字元,指定了128個字元的編碼,其中最高位規定統一取值為0。

3、標準ascii編碼只能編碼有限的字元,其他歐洲國家為了編碼自己國家的語言,使用了標準ascii碼空閒的部分,即擴充套件了標準ascii碼。

4、標準ascii碼或者擴充套件ascii碼不能編碼漢字及其他象形文本,為此中國制定了gb2312和gbk。

5、由於各個國家制定了多種不同型別的編碼方式,同乙個二進位制序列可能有多種編碼解釋,為了統一編碼,iso制定了unicode編碼方式,使用16個bit標示乙個字元,可以包括所有字元的編碼,需要說明的是,unicode只規定了符號的二進位制編碼,卻沒有規定這個二進位制編碼應該如何儲存。unicode的出現解決了之前各種編碼並存的混亂局面,但是也也有很多不完美的地方,比如如何與之前的ascii碼作區分、空間占用大等問題。

6、unicode在很長時間內無法推廣,直到網際網路的出現,為了解決unicode的傳輸問題,出現了很多utf標準,其中應用最為廣泛的是utf-8,它是unicode編碼的一種實現方法,utf-8是一種變長的編碼方式,可以用1-4個位元組表示乙個字元,utf-8使得編碼無國界,這樣就可以表示世界上所有國家的字元了。

1、2、

3、

字元編碼及其轉換

1.ascii 單字儲存 ascii碼使用單字儲存,即8位儲存,所以最多只能編碼256個字元,主要為西文服務。ascii碼劃分為兩個集合 128個字元的標準ascii碼和附加的128個字元的擴充ascii碼。2.ansi 單字儲存,也可以理解為單雙字混存 ansi是ascii字符集的擴充,在儲存as...

認識 URL 及其編碼

參考文獻 url 由網際網路工程任務組織 ietf uri 工作小組制定並成為乙個網際網路標準,收錄於 rfc1738。正如有許多不同的獲取資源的方法一樣,描述這些資源的位置也有多種方案。不同的協議有不同的 url 語法,但是 url 的通用語法為其他協議建立新的方案提供了框架。一般而言,url 的...

Android編碼解碼及其原理

概念 編碼解碼就是使用特定的演算法,將資料進行處理,形成資料的另外一種表現形式,編碼後的資料可以使用解碼演算法還原出原始資料。將位元組陣列編碼,返回為string base64.encodetostring byte bs,int flag 將位元組陣列編碼,返回位元組陣列 base64.encod...