編碼指不同國家的語言在計算機中的一種儲存和解釋規範
ansi與ascii :最初,internet上只有一種字符集——ansi的ascii字符集(american standard code for information interchange, 「美國資訊交換標準碼),它使用7 bits來表示乙個字元,總共表示128個字元,後來ibm公司在此基礎上進行了擴充套件,用8bit來表示乙個字元,總共可以表示256個字元,充分利用了乙個位元組所能表達的最大資訊 nansi字符集:ascii字符集,以及由此派生並相容的字符集,如:gb2312,正式的名稱為mbcs(multi-byte chactacter system,多位元組字元系統),通常也稱為ansi字符集。
unicode與utf8,utf16:由於每種語言都制定了自己的字符集,導致最後存在的各種字符集實在太多,在國際交流中要經常轉換字符集非常不便。因此,產生了unicode字符集,它固定使用16 bits(兩個位元組)來表示乙個字元,共可以表示65536個字元。
標準的unicode稱為utf-16(utf:ucs transformation format )。後來為了雙位元組的unicode能夠在現存的處理單位元組的系統上正確傳輸,出現了utf-8,使用類似mbcs的方式對unicode進行編碼。(unicode字符集有多種編碼形式) 例如「連通」兩個字的unicode標準編碼utf-16 (big endian)為:de 8f 1a 90 而其utf-8編碼為:e8 bf 9e e9 80 9a n當乙個軟體開啟乙個文字時,它要做的第一件事是決定這個文字究竟是使用哪種字符集的哪種編碼儲存的。軟體一般採用三種方式來決定文字的字符集和編碼: 檢測檔案頭標識,提示使用者選擇,根據一定的規則猜測 最標準的途徑是檢測文字最開頭的幾個位元組,開頭位元組 charset/encoding,如下表: ef bb bf utf-8 feff utf-16/ucs-2, little endian ff
fe utf-16/ucs-2, big endian ff
fe 00 00 utf-32/ucs-4, little endian. 00 00 fe ff utf-32/ucs-4, big-endian.
單位元組字符集,多位元組字符集,Unicode
我們在這裡介紹一下字元型別。這裡有3種編碼模式對應3種字元型別。第一種編碼型別是單子節字符集 single byte character set or sbcs 在這種編碼模式下,所有的字元都只用乙個位元組表示。ascii是sbcs。乙個位元組表示的0用來標誌sbcs字串的結束。第二種編碼模式是多位...
Unicode 和多位元組字符集 MBCS
有些國際市場以大字符集來使用日文和中文等語言。為了支援這些市場的程式設計,microsoft 基礎類庫 mfc 支援以兩種方式處理大字符集 unicode 多位元組字符集 mbcs unicode 字串的 mfc 支援 整個類庫有條件地支援 unicode 字元和字串。特別是 cstring 類也支...
Unicode字符集和多字符集
由於各國語言的加入,ascii已經不能滿足資訊交流的需要,因此,為了能夠表示其它國家的文字,各國在ascii的基礎上制定了自己的字符集,它們正式的名稱應該是mbcs multi byte chactacter system,即多位元組字元系統 型別說明 unicode ansi 通用型別 字元wch...