因為我也沒有找到更適合的參考資料,因此只能自己生成乙份編碼表,然後從中找出這些特徵,不過大部份來說都是準確的,有些個別的外語,我也不知道是什麼。(文 it柏拉圖)
至於這個表是幹嗎的,如果你想對使用者輸入的一些東西進行過濾或嘗試識別亂碼,或編碼具於utf-8編碼的分詞系統,那麼這些參考資料是很有意義的。
一、中文漢字區:
(1)生冷字:
0x3400--0x4db5
(2)普通:
0x4e00--0x9fa5
(3)其它:
0xf900--0xfa2c
二、韓文區:
(1)韓文音標字元區
0x1100--0x11f9
0x3130--0x318e
(2)韓文:
0xac00--0xd7a3
三、符號表情:
(1)分段字元(如:① ⑴ ⒈ )
0x2460--0x24e9
(2)製表附助、特殊字元等(┊┌┍ ▃ ▄ ▅)
0x2500--0x25ff
(3)實物體字元
0x2600--0x2671
0x2700--0x27ff
(4)全形括號(《》「」『』【】〔〕〖〗等)
0x3007--0x301a
(5)特殊序號或單位元素區(㈠ ㎎ ㎏ ㎡ 等)
0x3200--0x33ff
(6)與ansi對應的全形字符
0xff00--0xff5e
對應: 0x0020--0xff7e (即 ! -- ~ 的區間)
(7)其它特殊符號
0x2000--0x22ff
四、日本字元或假名符號區:
0x3041--0x30ff
0x3104--0x312a
0xff66--0xff9e
其中平假名:0x3041--0x3094
片假名:0x30a1--0x30fa
五、其它字條或音標區:
(1)羅馬音標
0x00c0--0x0232
(2)類羅馬音標或歐洲字元
0x0386--0x04f3
0x1e00--0x1eff
0x1f00--0x1fff
(3)阿拉伯語
0x0620--0x06ff
(4)佛教混合梵語
0x0904--0x0970
0x0a00--0x0aef
0x0e00--0x0e32
六、unicode編碼與utf-8編碼轉換:
unicode符號範圍 | utf-8編碼方式
u0000 0000 - u0000 007f | 0******x
u0000 0080 - u0000 07ff | 110***xx 10******
u0000 0800 - u0000 ffff | 1110***x 10****** 10******
字元編碼 unicode編碼
1.ascii american standard code for information interchange 美國資訊交換標準 這是計算機上最早使用的通用的編碼方案。那個時候計算機還只是拉丁文本的專利,根本沒有想到現在計算機的發展勢頭,如果想到了,可能一開始就會使用unicode了。當時絕大...
Unicode字元編碼
ascii碼 最早的字元編碼,使用乙個byte的7位來表示128種字元 控制字元,控制符,小寫字母,大寫字母,數字,標點,運算子等 然而對於英語國家來說,基本夠用 但對於使用非英文本元的國家來說,就不夠用了。擴充套件ascii碼 為了滿足需要,各國在相容ascii碼的基礎上對128 155等位元組進...
多字元編碼 和 Unicode編碼
四字符集和字元編碼說明 五 其他 c 基本資料型別中表示字元有兩種 char wchar t char 叫多位元組字元,乙個char佔乙個位元組,之所以叫多位元組字元是因為它表示乙個字時可能是乙個位元組也可能是多個位元組。乙個英文本元 如 s 用乙個char 乙個位元組 表示,乙個中文漢字 如 中 ...