正規表示式學習

表1.常用的元字元

**說明

.匹配除換行符以外的任意字元

\w匹配字母或數字或下劃線或漢字

\s匹配任意的空白符

\d匹配數字

\b匹配單詞的開始或結束

^匹配字串的開始

$匹配字串的結束

表2.常用的限定符

**/語法說明*

重複零次或更多次

+重複一次或更多次

?重複零次或一次

重複n次

重複n次或更多次

重複n到m次

如果想匹配沒有預定字元的字串組合，比如想匹配所有的小寫字母，可以使用[a-z],比如[0-9]和\d的含義一樣。

如果想匹配某些特定字元，比如*.()等，則必須在前面加上\ 例如：\* \(

如果想匹配不同表示式中的任意一種，可用分枝條件。分枝條件指的是有幾種規則，如果滿足其中任意一種規則都應該當成匹配，具體方法是用|把不同的規則分隔開。例如：\d-\d|\d 匹配兩種規則，一種是12345-4321，一種是12345。但注意的是分枝條件判斷的順序是從左至右判斷的，只要滿足某個分枝，就不會判斷其它分枝了。

如果想重複多個字串可以使用分組模式，方法是在要重複的字串兩邊加上()，後面加上重複的次數。比如((2[0-4]\d|25[0-5]|[01]?\d\d?)\.)(2[0-4]\d|25[0-5]|[01]?\d\d?) 匹配乙個正確的ip位址。

如果想找反義字元，可用反義字符碼。

表3.常用的反義**

**/語法

說明\w

匹配任意不是字母，數字，下劃線，漢字的字元

\s匹配任意不是空白符的字元

\d匹配任意非數字的字元

\b匹配不是單詞開頭或結束的位置

[^x]

匹配除了x以外的任意字元

[^aeiou]

匹配除了aeiou這幾個字母以外的任意字元

例如：]+> 匹配用尖括號括起來的以a開頭的字串。

使用小括號指定乙個子表示式後，匹配這個子表示式的文字(也就是此分組捕獲的內容)可以在表示式或其它程式中作進一步的處理。預設情況下，每個分組會自動擁有乙個組號，規則是：從左向右，以分組的左括號為標誌，第乙個出現的分組的組號為1，第二個為2，以此類推。分組0對應整個正規表示式；實際上組號分配過程是要從左向右掃瞄兩遍的：第一遍只給未命名組分配，第二遍只給命名組分配，因此所有命名組的組號都大於未命名的組號；你可以使用(?:exp)這樣的語法來剝奪乙個分組對組號分配的參與權．

後向引用用於重複搜尋前面某個分組匹配的文字。例如，\1代表分組1匹配的文字。例如：

\b(\w+)\b\s+\1\b可以用來匹配重複的單詞，像go go, 或者kitty kitty。這個表示式首先是乙個單詞，也就是單詞開始處和結束處之間的多於乙個的字母或數字(

\b(\w+)\b)，這個單詞會**獲到編號為1的分組中，然後是1個或幾個空白符(\s+)，最後是分組1中捕獲的內容（也就是前面匹配的那個單詞）(\1)。

你也可以自己指定子表示式的組名。要指定乙個子表示式的組名，請使用這樣的語法：(?\w+)(或者把尖括號換成'也行：(?'word'\w+)),這樣就把\w+的組名指定為word了。要反向引用這個分組捕獲的內容，你可以使用\k,所以上乙個例子也可以寫成這樣：\b(?\w+)\b\s+\k\b。

使用小括號的時候，還有很多特定用途的語法。下面列出了最常用的一些：

表4.常用分組語法

分類**/語法

說明捕獲

(exp)

匹配exp,並捕獲文字到自動命名的組裡

(?exp)

匹配exp,並捕獲文字到名稱為name的組裡，也可以寫成(?'name'exp)

(?:exp)

匹配exp,不捕獲匹配的文字，也不給此分組分配組號

零寬斷言

(?=exp)

匹配exp前面的位置

(?<=exp)

匹配exp後面的位置

(?!exp)

匹配後面跟的不是exp的位置

(?匹配前面不是exp的位置

注釋(?#comment)

這種型別的分組不對正規表示式的處理產生任何影響，用於提供注釋讓人閱讀

表5.懶惰限定符

**/語法

說明*?

重複任意次，但盡可能少重複

+?重複1次或更多次，但盡可能少重複

??重複0次或1次，但盡可能少重複

?重複n到m次，但盡可能少重複

?重複n次以上，但盡可能少重複

正規表示式有一項規則，最開始匹配到的字元擁有最高優先權。

資料引用：

正規表示式學習

正規表示式學習

正規表示式學習

正規表示式學習

相關推薦