在中文分詞的過程中需要將英文,數字,漢字分離,數字和英文就不用分割了,主要是將分離出來的漢字進行分詞,下面的演算法實現利用正規表示式分離漢字、英文、數字:
//獲取中文
string chregs = @"[\u4e00-\u9fa5]+";
regex chregr = new regex(chregs);
match chmacth = chregr.match(str);
while(chmacth.success)
//英文
string enregs = @"[a-za-z]+";
regex enregr = new regex(enregs);
match enmatch = enregr.match(str);
while (enmatch.success)
//數字
string numregs = @"\d+";
regex numregr = new regex(numregs);
match nummatch = numregr.match(str);
while (nummatch.success)
測試字串:「可復用的wpf或者silverlight應用程式和元件設計(3)——控制項級別」結果: 正規表示式限制文字框輸入 數字 漢字 英文
許多時候我們在製作表單時需要限制文字框輸入內容的型別,下面我們用正規表示式限制文字框只能輸入數字 小數點 英文本母 漢字等各類 1.文字框只能輸入數字 小數點也不能輸入 keyup this.value this.value.replace d g,on afterpaste this.value ...
正規表示式匹配漢字
這裡是幾個主要非英文語系字元範圍 2e80 33ffh 中日韓符號區。收容康熙字典部首 中日韓輔助部首 注音符號 日本假名 韓文音符,中日韓的符號 標點 帶圈或帶括符文數字 月份,以及日本的假名組合 單位 年號 月份 日期 時間等。3400 4dffh 中日韓認同表意文字擴充a區,總計收容6,582...
數字正規表示式
驗證數字的正規表示式集 驗證數字 0 9 驗證n位的數字 d 驗證數字有0到兩位小數 0 9 0 9 驗證至少n位數字 d 驗證m n位的數字 d 驗證零和非零開頭的數字 0 1 9 0 9 驗證有兩位小數的正實數 0 9 0 9 驗證有1 3位小數的正實數 0 9 0 9 驗證非零的正整數 1 9...