幾種計算機字元編碼的區別與聯絡

2021-07-11 19:23:18 字數 3926 閱讀 5333

最近有點心不在焉,好多考試,課本不想看,考研資料懶得翻,總不能白白浪費時間吧,不妨把折磨人好長時間的編碼問題總結一下。3,2,1,,走起!
ascii和ascii擴充套件字符集

很久以前,有一群人,他們決定用8個可以開合的電晶體來組合成不同的狀態,以表示世界上的萬物。他們看到8個開關狀態是好的,於是他們把這稱為「位元組」。再後來,他們又做了一些可以處理這些位元組的機器,機器開動了,可以用位元組來組合出很多狀態,狀態開始變來變去。他們看到這樣是好的,於是它們就這機器稱為「計算機」。

最開始計算機只在美國使用,他們並沒有考慮太多,只求把他們自己使用的語言表示出來就好,他們一共就26個字母,再加上一些標點符號,頂多也就一百來個,也就是說,乙個位元組8位能夠表示的256種字元綽綽有餘。於是,他們把0x00~0x0f(0~31)的字元用來表示某種控制命令,而不是能列印出來的字元,比如遇上0×10, 終端就換行,遇上0×07, 終端就向人們嘟嘟叫,例如遇上0x1b, 印表機就列印反白的字,或者終端就用彩色顯示字母。他們看到這樣很好,於是就把這些0×20以下的位元組狀態稱為「控制碼」。他們又把所有的空 格、標點符號、數字、大小寫字母分別用連續的位元組狀態表示,一直編到了第127號,這樣計算機就可以用不同位元組來儲存英語的文字了。大家看到這樣,都感覺 很好,於是大家都把這個方案叫做 ansi 的「ascii」編碼(american standard code for information interchange,美國資訊互換標準**)。當時世界上所有的計算機都用同樣的ascii方案來儲存英文文字。

後來,越來越多的人開始使用計算機,當然包括好多其他國家,因此,開始設計的用乙個位元組中的7位來表示字元逐漸不夠使了,因為他們使用的不是英文,他們的字元在ascii字符集裡根本沒有。因此,他們把眼光瞄向了剩下的乙個位,也就是首位。於是,從128到256都被編上了字元。他們把128~256這一部分叫做」ascii擴充套件字符集」。 從此之後,貪婪的人類再沒有新的狀態可以用了。

gb2312、gbk和gb1803

等中國人們得到計算機時,已經沒有可以利用的位元組狀態來表示漢字,況且有6000多個常用漢字需要儲存呢。但是這難不倒智慧型的中國人民,我們不客氣地把那些127號之後的奇異符號們直接取消掉, 規定:乙個小於127的字元的意義與原來相同,當兩個大於127的字元連在一起時,就表示乙個漢字,前面的乙個位元組(他稱之為高位元組)從0xa1用到 0xf7,後面乙個位元組(低位元組)從0xa1到0xfe,這樣我們就可以組合出大約7000多個漢字了。在這些編碼裡,我們還把數學符號、羅馬希臘的字母、日文的假名們都編進去了,連在 ascii 裡本來就有的數字、標點、字母都統統重新編了兩個位元組長的編碼,這就是常說的」全形」字元,而原來在127號以下的那些就叫」半形」字元了。 中國人民看到這樣很不錯,於是就把這種漢字方案叫做 「gb2312「。gb2312 是對 ascii 的中文擴充套件。(詳見

但是中國的漢字太多了,我們很快就就發現有許多人的人名沒有辦法在這裡打出來,特別是某些很會麻煩別人的國家領導人。於是我們不得不繼續把 gb2312 沒有用到的碼位找出來老實不客氣地用上。 後來還是不夠用,於是乾脆不再要求低位元組一定是127號之後的內碼,只要第乙個位元組是大於127就固定表示這是乙個漢字的開始,不管後面跟的是不是擴充套件字符集裡的內容。結果擴充套件之後的編碼方案被稱為 gbk 標準,gbk包括了gb2312 的所有內容,同時又增加了近20000個新的漢字(包括繁體字)和符號。 後來少數民族也要用電腦了,於是我們再擴充套件,又加了幾千個新的少數民族的字,gbk擴成了 gb18030。從此之後,中華民族的文化就可以在計算機時代中傳承了。 中國的程式設計師們看到這一系列漢字編碼的標準是好的,於是通稱他們叫做 「dbcs「(double byte charecter set 雙位元組字符集)。在dbcs系列標準裡,最大的特點是兩位元組長的漢字字元和一位元組長的英文本元並存於同一套編碼方案裡,因此他們寫的程式為了支援中文處理,必須要注意字串裡的每乙個位元組的值,如果這個值是大於127的,那麼就認為乙個雙位元組字符集裡的字元出現了。那時候凡是受過加持,會程式設計的計算機僧侶 們都要每天念下面這個咒語數百遍: 「乙個漢字算兩個英文本元!乙個漢字算兩個英文本元……」

unicode

你以為這樣就完了嗎??不不不,只有中國這樣,那其他國家呢?人家也不傻啊不是,這樣,世界上便出現了越來越多的編碼方式,結果互相之間誰也不懂誰的編碼,誰也不支援別人的編碼,連大陸和台灣這樣只相隔了150海浬,使用著同一種語言的兄弟地區,也分別採用了不同的 dbcs 編碼方案——當時的中國人想讓電腦顯示漢字,就必須裝上乙個」漢字系統」,專門用來處理漢字的顯示、輸入的問題,但是那個台灣的愚昧封建人士寫的算命程式就必須加裝另一套支援 big5 編碼的什麼」倚天漢字系統」才可以用,裝錯了字元系統,顯示就會亂了套!這怎麼辦?而且世界民族之林中還有那些一時用不上電腦的窮苦人民,他們的文字又怎麼辦? 真是計算機的巴比倫塔命題啊!

正在這時,大天使加百列及時出現了——乙個叫 iso (國際標誰化組織)的國際組織決定著手解決這個問題。他們採用的方法很簡單:廢了所有的地區性編碼方案,重新搞乙個包括了地球上所有文化、所有字母和符號 的編碼!他們打算叫它」universal multiple-octet coded character set」,簡稱 ucs, 俗稱 「unicode「。

unicode開始制訂時,計算機的儲存器容量也極大地發展了,空間再也不成為問題了。於是 iso 就直接規定必須用兩個位元組,也就是16位來統一表示所有的字元,對於ascii裡的那些「半形」字元,unicode包持其原編碼不變,只是將其長度由原來的8位擴充套件為16位,而其他文化和語言的字元則全部重新統一編碼。由於」半形」英文符號只需要用到低8位,所以其高8位永遠是0,因此這種大氣的方案在儲存英文文字時會多浪費一倍的空間。

這時候,從舊社會裡走過來的程式設計師開始發現乙個奇怪的現象:他們的strlen函式靠不住了,乙個漢字不再是相當於兩個字元了,而是乙個!是的,從unicode開始,無論是半形的英文本母,還是全形的漢字,它們都是統一的」乙個字元「!同時,也都是統一的」兩個位元組「,請注意」字元」和」位元組」兩個術語的不同,「位元組」是乙個8位的物理存貯單元,而「字元」則是乙個文化相關的符號。在unicode中,乙個字元就是兩個位元組。乙個漢字算兩個英文本元的時代已經快過去了。

utf—8和utf—16

unicode同樣也不完美,這裡就有兩個的問題,乙個是,如何才能區別unicode和ascii?計算機怎麼知道三個位元組表示乙個符號,而不是分別表示三個符號呢?第二個問題是,我們已經知道,英文本母只用乙個位元組表示就夠了,如果unicode統一規定,每個符號用三個或四個位元組表示,那麼每個英文本母前都必然有二到三個位元組是0,這對於儲存空間來說是極大的浪費,文字檔案的大小會因此大出二三倍,這是難以接受的。

unicode在很長一段時間內無法推廣,直到網際網路的出現,為解決unicode如何在網路上傳輸的問題,於是面向傳輸的眾多 utf(ucs transfer format)標準出現了,顧名思義,utf-8就是每次8個位傳輸資料,而utf-16就是每次16個位。utf-8就是在網際網路上使用最廣的一種unicode的實現方式,這是為傳輸而設計的編碼,並使編碼無國界,這樣就可以顯示全世界上所有文化的字元了。

utf-8最大的乙個特點,就是它是一種變長的編碼方式。它可以使用1~4個位元組表示乙個符號,根據不同的符號而變化位元組長度,當字元在ascii碼的範圍時,就用乙個位元組表示,保留了ascii字元乙個位元組的編碼做為它的一部分,注意的是unicode乙個中文字元佔2個位元組,而utf-8乙個中文字元佔3個位元組)。從unicode到uft-8並不是直接的對應,而是要過一些演算法和規則來轉換。

unicode符號範圍 | utf-8編碼方式

(十六進製制) | (二進位制)

——————————————————————————————————

0000 0000-0000 007f | 0******x

0000 0080-0000 07ff | 110***xx 10******

0000 0800-0000 ffff | 1110***x 10****** 10******

0001 0000-0010 ffff | 11110*** 10****** 10****** 10******

參考:

計算機字元與編碼

ascii碼 1.使用7個bits就可以完全表示ascii american standard code for information interchange 碼 包含95個可列印的字元,33個不可列印的字元,比如一些控制字元 33 95 128 2的7次方,最高位表示定位符。ascii包含了所有...

計算機字元編碼

因為計算機只能處理數字,如果要處理文字,就必須先把文字轉換為數字才能處理。最早的計算機在設計時採用8個位元 bit 作為乙個位元組 byte 所以,乙個位元組能表示的最大的整數就是255 二進位制11111111 十進位制255 如果要表示更大的整數,就必須用更多的位元組。比如兩個位元組可以表示的最...

計算機字元編碼

編碼方式 計算機中所有的資訊都採用0,1這樣的二進位制位來表示,那麼肯定存在特定的對映規則 例如 0010 0011 我們將這種一一對應的規則稱為編碼 方式 常見的編碼方式有 ascii utf 8 gbk等 編碼 我們希望將hi 這句話儲存在磁碟上,由於計算機只能儲存0和1因此我們可以將hi 按照...