Unicode中文和特殊字元的編碼範圍

2021-07-04 00:15:16 字數 1062 閱讀 5000

程式設計中有時候需要用到匹配中文的正則,一般用 [ \u4e00-\u9fa5]+ 即可搞定。不過這正則對一般的火星文鳥語就不太適用了,甚至全形的標點符號都不包含在內。例如遊戲裡面的玩家名,普通青年一般都是漢字,文藝青年會加幾個特殊字元,2b青年火星文鳥語都會用上;這時候你就需要更強大的正則了。

其實,遊戲內大部分的玩家名都取自:中日韓統一表意文字(cjk unified ideographs),外加一些特殊的字元;用 [ \u2e80-\ufe4f]+基本都涵蓋了 。根據unicode5.0整理如下:

1)標準cjk文字

2)全形ascii、全形中英文標點、半寬片假名、半寬平假名、半寬韓文本母:ff00-ffef

3)cjk部首補充:2e80-2eff

4)cjk標點符號:3000-303f

5)cjk筆劃:31c0-31ef

6)康熙部首:2f00-2fdf

7)漢字結構描述字元:2ff0-2fff

8)注音符號:3100-312f

9)注音符號(閩南語、客家語擴充套件):31a0-31bf

10)日文平假名:3040-309f

11)日文片假名:30a0-30ff

12)日文片假名拼音擴充套件:31f0-31ff

13)韓文拼音:ac00-d7af

14)韓文本母:1100-11ff

15)韓文相容字母:3130-318f

16)太玄經符號:1d300-1d35f

17)易經六十四卦象:4dc0-4dff

18)彝文音節:a000-a48f

19)彝文部首:a490-a4cf

20)盲文符號:2800-28ff

21)cjk字母及月份:3200-32ff

22)cjk特殊符號(日期合併):3300-33ff

23)裝飾符號(非cjk專用):2700-27bf

24)雜項符號(非cjk專用):2600-26ff

25)中文豎排標點:fe10-fe1f

26)cjk相容符號(豎排變體、下劃線、頓號):fe30-fe4f

-------------

此網頁也列出了部分。

Unicode中文和特殊字元的編碼範圍

程式設計中有時候需要用到匹配中文的正則,一般用 u4e00 u9fa5 即可搞定。不過這正則對一般的火星文鳥語就不太適用了,甚至全形的標點符號都不包含在內。例如遊戲裡面的玩家名,普通青年一般都是漢字,文藝青年會加幾個特殊字元,2b青年火星文鳥語都會用上 這時候你就需要更強大的正則了。其實,遊戲內大部...

中文特殊字元 空格

zc 全形空格儲存 以後直接複製就可以使用了 全形空格 與漢字一樣作為gbk的乙個字元,它對應的十進位製碼是 定義上是2個半形空格的大小,在網頁中卻大約相當於3 4個半形空格的大小,而且它自身不易被左對齊。全形空格一般適用於在強制性左對齊的情況下需要居中或者在其他特定位置的時候。一些亂碼字中也會出現...

unicode字元轉換成中文

我們返回資料的時候有時候會返回unicode格式的字串,我們要把這種字串轉換成中文 具體要怎麼做,看下面的案例 data u5317 u4eac print type data print data type str u5317 u4eac 可以看到我們列印出來的結果是沒有轉換的字串 data u5...