匹配Unicode字元的正規表示式

這裡是幾個主要非英文語系字元範圍(google上找到的):

2e80～33ffh：中日韓符號區。收容康熙字典部首、中日韓輔助部首、注音符號、日本假名、韓文音符，中日韓的符號、標點、帶圈或帶括符文數字、月份，以及日本的假名組合、單位、年號、月份、日期、時間等。

3400～4dffh：中日韓認同表意文字擴充a區，總計收容6,582個中日韓漢字。

4e00～9fffh：中日韓認同表意文字區，總計收容20,902個中日韓漢字。

a000～a4ffh：彝族文字區，收容中國南方彝族文字和字根。

ac00～d7ffh：韓文拼音組合字區，收容以韓文音符拼成的文字。

f900～faffh：中日韓相容表意文字區，總計收容302個中日韓漢字。

fb00～fffdh：文字表現形式區，收容組合拉丁文本、希伯來文、阿拉伯文、中日韓直式標點、小符號、半形符號、全形符號等。

比如需要匹配所有中日韓非符號字元,那麼正規表示式應該是^[/u3400-/u9fff]+$

理論上沒錯, 可是我到msn.co.ko隨便複製了個韓文下來, 發現根本不對, 詭異

再到msn.co.jp複製了個'お', 也不得行..

然後把範圍擴大到^[/u2e80-/u9fff]+$, 這樣倒是都通過了, 這個應該就是匹配中日韓文字的正規表示式了, 包括我們台灣省還在盲目使用的正體中文

而關於中文的正規表示式, 應該是^[/u4e00-/u9fff]+$, 和論壇裡常被人提起的^[/u4e00-/u9fa5]+$很接近

需要注意的是論壇裡說的^[/u4e00-/u9fa5]+$這是專門用於匹配簡體中文的正規表示式, 實際上繁體字也在裡面, 我用測試器測試了下'中華人民共和國', 也通過了, 當然, ^[/u4e00-/u9fff]+$也是一樣的結果

引用之：http://dudu.cnblogs.com/articles/153010.html

原文：http://blog.sunmast.com/sunmast/archive/2004/07/30/799.aspx

這裡是幾個主要非英文語系字元範圍 google上找到的 2e80 33ffh 中日韓符號區。收容康熙字典部首中日韓輔助部首注音符號日本假名韓文音符，中日韓的符號標點帶圈或帶括符文數字月份，以及日本的假名組合單位年號月份日期時間等。3400 4dffh 中日韓認同表意文字擴充a...

原文這裡是幾個主要非英文語系字元範圍 google上找到的 2e80 33ffh 中日韓符號區。收容康熙字典部首中日韓輔助部首注音符號日本假名韓文音符，中日韓的符號標點帶圈或帶括符文數字月份，以及日本的假名組合單位年號月份日期時間等。3400 4dffh 中日韓認同表意文字...

字元描述轉義字元,在之前,我們在字串也用過這字元,即一些字元具有特殊含義,對其進行轉義使它成為普通字元,而用在普通字元上又表示其有特殊含義匹配輸入字串的開始位置,如果設定了匹配多行 m 那麼也匹配行的開頭匹配輸入字串的結束位置。如果設定了匹配多行 m 那麼也匹配行的結束匹配前面的子表示式零次...