字符集和字符集編碼雜談系列之我見

2021-07-03 10:19:41 字數 803 閱讀 6987

記得從看《windows程式設計》時就遇到過這個問題,字元編碼,字符集傻傻分不清楚,每次感覺弄清楚了,但不久遇到後又混亂了。所以這次記下一些自己的理解。

簡而言之,即使一些字元的集合。不同的字符集包含不同的字元。

如上所說,字符集只是一些字元的集合,並沒有定義這些字元如何在計算機記憶體中如何表示。於是,字符集編碼就出現了,字符集編碼對字符集中的每乙個字元進行編碼,這個編碼一方面會給每乙個字元乙個唯一的標識或者說編號,另一方面也規定了這個唯一的標識在計算機記憶體中的表現形式。乙個字符集可能有多個字符集編碼。比如現在針對中文,我們制定了乙個字符集叫 chinese,然後該字符集對應的字符集編碼為 chinese-c,然後 chinese-c 規定 『f』 和 『你』 這兩個字元的標識分別為 0x1和 0xabcdffff,然後標識在記憶體中均佔兩個位元組,遵循大字節序。當然,你也可以另針對該字符集制定另外乙個字符集編碼。給每乙個字元不同的唯一標識或者規定標識在記憶體中的不同表現形式。

問題在於,世界上很多國家,很多語言,不同的語言通常也意味著不同的字元。拿我大**舉例,我們使用漢字,現在回到當初制定字符集的時候,大家身臨其境的考慮下,首先可以肯定的是,這個字符集肯定是要包含所有的漢字字元的。嗯,那是否要考慮其他語言的字元呢?答案是,你當然可以考慮,但這不是乙個一時半會能解決的問題,那麼多語言,那麼多字元,這是乙個相當龐大的工程,還有就是,假如我們完成了這個工程,為世界上的所有字元制定了乙個統一的字符集,那其他國家會使用這個字符集嗎,不使用這個字符集,我們不是白幹了。於是,我們制定了乙個只包含中文字元的字符集 chinese 和針對該字符集的字符集編碼 chinese-c。然後,其他國家也是這麼想的,於是就出現了這麼多的字符集和字符集編碼。

字符集和字符集編碼詳解

gb2312 gbk ascii asni unicode utf 8等等,這些字眼非常常見,同時帶來許多的問題。本文只是從理解的角度,說明以上內容的不同含義從而達到區分其用法的目的是夠了的。至於實現方式,可以查閱各自的詳細標準官方文件。先解釋乙個概念,什麼是字符集,嗯,不解釋了,我弄乙個吧 從今以...

字符集和字元編碼

字符集和字元編碼不錯的部落格 字符集 是乙個系統支援的所有抽象字元的集合。字元是各種文字和符號的總稱,包括各國家文字 標點符號 圖形符號 數字等。asicc,unicode,gbk,gb2312等 字元編碼 是一套法則,使用該法則能夠對自然語言的字元的乙個集合 如字母表或音節表 與其他東西的乙個集合...

字符集和字元編碼

字符集 建立文字檔案預設使用ansi,就是系統預設編碼方式,中文window系統預設使用gbk編碼方式 位元組 這是最基本的概念,位元組是計算儲存容量的一種計量單位,我們知道計算機只能識別1和0組成的二進位制位,乙個數就是1位 bit 為了方便計算,我們規定8位就是乙個位元組 字元 字元和位元組不太...