12:05 am |
cjk,
unicode
2006.10
因為fontrouter新版本開發的需要,在網上搜尋了一下漢字的unicode範圍,普遍給出了「u+4e00..u+9fa5」。但事實上這個範 圍是不完整的,甚至連基本的全形(中文)標點也未包含在內。為此,我特地查詢了unicode官方的code charts資料庫,並根據最新的unicode 5.0版整理如下:
注:在絕大多數應用場合中,我們可以僅用(1)、(2)、(3)、(4)、(5)的集合作為cjk判斷的依據。
1)標準cjk文字
2)全形ascii、全形中英文標點、半寬片假名、半寬平假名、半寬韓文本母:ff00-ffef
3)cjk部首補充:2e80-2eff
4)cjk標點符號:3000-303f
5)cjk筆劃:31c0-31ef
6)康熙部首:2f00-2fdf
7)漢字結構描述字元:2ff0-2fff
8)注音符號:3100-312f
9)注音符號(閩南語、客家語擴充套件):31a0-31bf
10)日文平假名:3040-309f
11)日文片假名:30a0-30ff
12)日文片假名拼音擴充套件:31f0-31ff
13)韓文拼音:ac00-d7af
14)韓文本母:1100-11ff
15)韓文相容字母:3130-318f
16)太玄經符號:1d300-1d35f
17)易經六十四卦象:4dc0-4dff
18)彝文音節:a000-a48f
19)彝文部首:a490-a4cf
20)盲文符號:2800-28ff
21)cjk字母及月份:3200-32ff
22)cjk特殊符號(日期合併):3300-33ff
23)裝飾符號(非cjk專用):2700-27bf
24)雜項符號(非cjk專用):2600-26ff
25)中文豎排標點:fe10-fe1f
26)cjk相容符號(豎排變體、下劃線、頓號):fe30-fe4f
完整的CJK Unicode範圍(5 0版)
注 在絕大多數應用場合中,我們可以僅用 1 2 3 4 5 的集合作為cjk判斷的依據。1 標準cjk文字 code point range block name release u 3400.u 4db5 cjk unified ideographs extension a 3.0u 4e00.u...
事務的範圍和鎖範圍
transactional rollbackfor exception.class public synchronized void isertuser4 user user 可以看到,因為要考慮併發問題,我在業務層 的方法上加了個 synchronized 關鍵字。我舉個實際 的場景,比如乙個資料...
使用基於範圍的 for 迴圈迭代範圍
許多程式語言支援 for 迴圈的稱之為 for each 的變體,即針對集合中的元素重複一組語句。在 c 11 之前 c 沒有相應的核心語言支援。最接近的特性是來自標準庫中的被稱為 std for each 的通用演算法,它在範圍的所有元素上應用乙個函式。c 11 帶來了對 for each 的語言...