漢字正規表示式 u4E00 u9FFF 原因

2022-06-02 14:57:25 字數 921 閱讀 5918

**易天:正規表示式的漢字匹配

這裡是幾個主要非英文語系字元範圍

2e80~33ffh:中日韓符號區。收容康熙字典部首、中日韓輔助部首、注音符號、日本假名、韓文音符,中日韓的符號、標點、帶圈或帶括符文數字、月份,以及日本的假名組合、單位、年號、月份、日期、時間等。

3400~4dffh:中日韓認同表意文字擴充a區,總計收容6,582個中日韓漢字。

4e00~9fffh:中日韓認同表意文字區,總計收容20,902個中日韓漢字。

a000~a4ffh:彝族文字區,收容中國南方彝族文字和字根。

ac00~d7ffh:韓文拼音組合字區,收容以韓文音符拼成的文字。

f900~faffh:中日韓相容表意文字區,總計收容302個中日韓漢字。

fb00~fffdh:文字表現形式區,收容組合拉丁文本、希伯來文、阿拉伯文、中日韓直式標點、小符號、半形符號、全形符號等。

比如需要匹配所有中日韓非符號字元,那麼正規表示式應該是^[\u3400-\u9fff]+$

理論上沒錯, 可是我到msn.co.ko隨便複製了個韓文下來, 發現根本不對, 詭異

再到msn.co.jp複製了個'お', 也不得行..

然後把範圍擴大到^[\u2e80-\u9fff]+$, 這樣倒是都通過了, 這個應該就是匹配中日韓文字的正規表示式了, 包括我們台灣省還在盲目使用的正體中文

\u 應該代表為unicode編碼。即在unicode編碼中4e00-9fff為中文字元編碼區

而關於中文的正規表示式, 應該是^[\u4e00-\u9fff]+$, 和論壇裡常被人提起的^[\u4e00-\u9fa5]+$很接近

需要注意的是論壇裡說的^[\u4e00-\u9fa5]+$這是專門用於匹配簡體中文的正規表示式, 實際上繁體字也在裡面, 我用測試器測試了下'中華人民共和國', 也通過了, 當然, ^[\u4e00-\u9fff]+$也是一樣的結果

9 正規表示式

mysql中使用regexp操作符來進行正規表示式匹配。下表中的正則模式可應用於regexp操作符中。模式描述 匹配輸入字串的開始位置。如果設定了regexp物件的multiline屬性,也匹配 n 或 r 之後的位置。匹配輸入字串的結束位置。如果設定了regexp物件的multiline屬性,也匹...

9 正規表示式

思路 使用兩個變數指示兩個不同的string 先檢查元素是否相等,是否為特殊字元 與.之後使用迴圈設定在碰到上述兩字元之後開始迴圈檢測 我理解錯了正規表示式中.的用法!是任意匹配乙個字元,而不是匹配前面的乙個字元!字元匹配乙個任意的字元 字元匹配前面0個或者多個字元 可以匹配0個一定要記好 但是吧,...

正規表示式匹配漢字

這裡是幾個主要非英文語系字元範圍 2e80 33ffh 中日韓符號區。收容康熙字典部首 中日韓輔助部首 注音符號 日本假名 韓文音符,中日韓的符號 標點 帶圈或帶括符文數字 月份,以及日本的假名組合 單位 年號 月份 日期 時間等。3400 4dffh 中日韓認同表意文字擴充a區,總計收容6,582...