漢字編碼歷史

2021-09-27 06:37:05 字數 851 閱讀 8526

qt君最近在處理字元亂碼的問題,順便看了下關於漢字字元編碼的歷史,總結分享給大家。

早期美國計算機顯示字元採用數字對映字母的方式,感覺挺好用,在60年代就做出了ascii編碼,從0-127共128個字元(包含不可見字元)。

眼巴巴地看著美國又是用計算機技術助力登月,又發展民用科技。於是我們國家在80年代大力發展計算機技術,可是出現的問題是,漢字顯示不了。不行,我們要和世界接軌,於是gb2312編碼橫空出世,囊括了六千多個常用漢字。

隨著資訊化的發展,gb2312似乎也不滿足日常使用了,特別是生僻字。由於漢字編碼的限制身份證顯示不了生僻字,需要特殊處理,有的人甚至是改名字。於是在90年代在gb2312的基礎上擴充套件到兩萬多個漢字的字元編碼gbk

不得不說中華文化博大精深,兩萬多個漢字似乎也是不夠用,繼續發展漢字編碼。gb2312編碼進化為gb18030編碼,擴充套件到了七萬多文字,還包含了少數少民族文字。

歷史的車輪不斷前進,文化相互融合與碰撞。由於各國都自製字元編碼,沒有統一標準,不同的系統中顯示各國文字互相亂碼,你眼看我眼,大家對著亂碼撓頭。

不行,我們要統一起來,於是乙個叫iso的國際標準化組織制定unicode編碼。隨著unicode編碼規範的建立,其實現方式有utf-8utf-16utf-32。由於utf-8採用變長的編碼方式實現,其節省空間,相容ascii標準的優點, 在網際網路上使用最廣的一種unicode的實現方式。

漢字編碼問題

漢字編碼問題 由於常常要和漢字處理打交道,因此,我常常受到漢字編碼問題的困擾。在不斷的打擊與堅持中,也積累了一點漢字編碼方面的經驗,想和大家一起分享。一 漢字編碼的種類 漢字編碼中現在主要用到的有三類,包括gbk,gb2312和big5。1 gb2312又稱國標碼,由國家標準總局發布,1981年5月...

漢字編碼問題

漢字編碼問題 由於常常要和漢字處理打交道,因此,我常常受到漢字編碼問題的困擾。在不斷的打擊與堅持中,也積累了一點漢字編碼方面的經驗,想和大家一起分享。一 漢字編碼的種類 漢字編碼中現在主要用到的有三類,包括gbk,gb2312和big5。1 gb2312又稱國標碼,由國家標準總局發布,1981年5月...

漢字編碼問題

由於常常要和漢字處理打交道,因此,我常常受到漢字編碼問題的困擾。在不斷的打擊與堅持中,也積累了一點漢字編碼方面的經驗,想和大家一起分享。一 漢字編碼的種類 漢字編碼中現在主要用到的有三類,包括gbk,gb2312和big5。1 gb2312又稱國標碼,由國家標準總局發布,1981年5 月1日實施,通...