字元編碼概述:下表,按照固定長編碼和可變長編碼進行分類。gb2312和gbk如果從與ascii碼相容的角度來講,也可以認為是可變長編碼。對於ascii碼以外的文字都是2位元組編碼。ucs和unicode在2023年已經統一
ascii編碼:前32個字元(0x00 ~ 0x1f)為控制字元;33到126(0x20 ~ 0x7e)為英文本元;第127個(0x7f)字元為控制字元
0x00 ~ 0x1f
控制字元
0x20 ~ 0x7e
英文本元
0x7f
控制字元(del)
ansi的擴充套件字符集iso8859-1編碼:
0x00 ~ 0x1f
未定義
0x20 ~ 0x7e
英文本元
0x7f, 0x80 ~0x9f
未定義oxa0 ~ 0xff
擴充套件字元(西歐文字或稱latin-1)
gb2312編碼:
ascii碼單位元組
a1a0....a9e0
(全形)英文本元,數字,特殊字元等
其中包括日文假名
a9f0 ….aff0
未定義b0a0.... d7f0
第一級常用漢字,常用漢字3775個
d8a0.... f7f0
第二級常用漢字,常用漢字3008個
f8a0….fef0
未定義
gbk編碼:包含21003個漢字,包含了iso 10646中的全部中日韓漢字,簡、繁體字融於一
8140.... a19f
很多特殊文字及繁體字
a1a0….. fef0
gb2312編碼
gb2312, gbk與ascii相容但是與unicode編碼不相容,需要裝換。
iso-10646即unicode編碼:unicode是國際組織制定的可以容納世界上所有文字和符號的字元編碼方案。unicode用數字0-0x10ffff來對映這些字元,最多可以容納1114112個字元,或者說有1114112個碼位。碼位就是可以分配給字元的數字,utf-8.utf-16、utf-32都是通過這種方式編碼的。
utf-8編碼:unicode編碼最少需要2個位元組空間來儲存文字,對於ascii表示的字元使用unicode編碼顯然低效,解決這一問題誕生了utf-8,utf-8的詳細介紹參見 http://zh.wikipedia.org/wiki/utf-8,其與unicode的對照參見http://www.utf8-chartable.de/,簡體中文對照表參見http://www.ansell-uebersetzungen.com/gbuni.html
中文編碼簡介
中文字庫有關的常見編碼有 單位元組編碼 gb2312 80 gb12345 90 gbk unicode編碼 unicode字符集 big5編碼。下面簡要介紹一下 1.gb2312 80 全稱是gb2312 80 資訊交換用漢字編碼字符集 基本集 1980年發布,是中文資訊處理的國家標準,在大陸及海...
字元編碼簡介
ascii ascii american standard code for information interchange,美國資訊交換標準 是一種單位元組編碼。計算機起源於美國,早期計算機中使用的只有英文,沒有其他的語言,而單位元組可以表示 2 8 1 即255 個字元,可以表示所有的英文本元及...
url編碼簡介
url編碼是一種瀏覽器用來打包表單輸入的格式。瀏覽器從表單中獲取所有的name和其中的值 將它們以name value引數編碼 移去那些不能傳送的字元,將資料排行等等 作為url的一部分或者分離地發給伺服器。不管哪種情況,在伺服器端的表單輸入格式樣子象這樣 thename ichabod crane...