正規表示式

[size=large][color=green]正規表示式簡介：[/color][/size]

簡單的說，正規表示式是一種可以用於模式匹配和替換的強有力的工具。其作用如下：

測試字串的某個模式。例如，可以對乙個輸入字串進行測試，看在該字串是否存在乙個**號碼模式或乙個信用卡號碼模式。這稱為資料有效性驗證。

替換文字。可以在文件中使用乙個正規表示式來標識特定文字，然後可以全部將其刪除，或者替換為別的文字。

根據模式匹配從字串中提取乙個子字串。可以用來在文字或輸入欄位中查詢特定文字。

[color=green]基本語法[/color]

在對正規表示式的功能和作用有了初步的了解之後，我們就來具體看一下正規表示式的語法格式。

正規表示式的形式一般如下：　　

/love/　　其中位於「/」定界符之間的部分就是將要在目標物件中進行匹配的模式。使用者只要把希望查詢匹配物件的模式內容放入「/」定界符之間即可。為了能夠使使用者更加靈活的定製模式內容，正規表示式提供了專門的「元字元」。所謂元字元就是指那些在正規表示式中具有特殊意義的專用字元，可以用來規定其前導字元（即位於元字元前面的字元）在目標物件中的出現模式。

較為常用的元字元包括：「+」，「*」，以及「?」。

「+」元字元規定其前導字元必須在目標物件中連續出現一次或多次。

「*」元字元規定其前導字元必須在目標物件中出現零次或連續多次。

「?」元字元規定其前導物件必須在目標物件中連續出現零次或一次。

下面，就讓我們來看一下正規表示式元字元的具體應用。

/fo+/　　因為上述正規表示式中包含「+」元字元，表示可以與目標物件中的「fool」, 「fo」, 或者「football」等在字母f後面連續出現乙個或多個字母o的字串相匹配。

/eg*/　　因為上述正規表示式中包含「*」元字元，表示可以與目標物件中的「easy」, 「ego」, 或者「egg」等在字母e後面連續出現零個或多個字母g的字串相匹配。

/wil?/　　因為上述正規表示式中包含「？」元字元，表示可以與目標物件中的「win」, 或者「wilson」,等在字母i後面連續出現零個或乙個字母l的字串相匹配。

有時候不知道要匹配多少字元。為了能適應這種不確定性，正規表示式支援限定符的概念。這些限定符可以指定正規表示式的乙個給定元件必須要出現多少次才能滿足匹配。

n 是乙個非負整數。匹配確定的 n 次。例如，'o' 不能匹配 "bob" 中的 'o'，但是能匹配 "food" 中的兩個 o。

n 是乙個非負整數。至少匹配 n 次。例如，'o' 不能匹配 "bob" 中的 'o'，但能匹配 "foooood" 中的所有 o。'o' 等價於 'o+'。'o' 則等價於 'o*'。

m 和 n 均為非負整數，其中n <= m。最少匹配 n 次且最多匹配 m 次。例如，"o" 將匹配 "fooooood" 中的前三個 o。'o' 等價於 'o?'。請注意在逗號和兩個數之間不能有空格。

除了元字元之外，使用者還可以精確指定模式在匹配物件中出現的頻率。例如，/jim / 上述正規表示式規定字元m可以在匹配物件中連續出現2-6次，因此，上述正規表示式可以同jimmy或jimmmmmy等字串相匹配。

在對如何使用正規表示式有了初步了解之後，我們來看一下其它幾個重要的元字元的使用方式。

\s：用於匹配單個空格符，包括tab鍵和換行符；

\s：用於匹配除單個空格符之外的所有字元；

\d：用於匹配從0到9的數字；

\w：用於匹配字母，數字或下劃線字元；

\w：用於匹配所有與\w不匹配的字元；

. ：用於匹配除換行符之外的所有字元。

（說明：我們可以把\s和\s以及\w和\w看作互為逆運算）

下面，我們就通過例項看一下如何在正規表示式中使用上述元字元。

/\s+/ 上述正規表示式可以用於匹配目標物件中的乙個或多個空格字元。

/\d000/　如果我們手中有乙份複雜的財務報表，那麼我們可以通過上述正規表示式輕而易舉的查詢到所有總額達千元的款項。

除了我們以上所介紹的元字元之外，正規表示式中還具有另外一種較為獨特的專用字元，即定位符。定位符用於規定匹配模式在目標物件中的出現位置。較為常用的定位符包括：「^」, 「$」, 「\b」以及「\b」。

「^」定位符規定匹配模式必須出現在目標字串的開頭

「$」定位符規定匹配模式必須出現在目標物件的結尾

「\b」定位符規定匹配模式必須出現在目標字串的開頭或結尾的兩個邊界之一

「\b」定位符則規定匹配物件必須位於目標字串的開頭和結尾兩個邊界之內，

即匹配物件既不能作為目標字串的開頭，也不能作為目標字串的結尾。

同樣，我們也可以把「^」和「$」以及「\b」和「\b」看作是互為逆運算的兩組定位符。舉例來說： /^hell/　因為上述正規表示式中包含「^」定位符，所以可以與目標物件中以「hell」, 「hello」或「hellhound」開頭的字串相匹配。 /ar$/　因為上述正規表示式中包含「$」定位符，所以可以與目標物件中以「car」, 「bar」或「ar」結尾的字串相匹配。 /\bbom/　因為上述正規表示式模式以「\b」定位符開頭，所以可以與目標物件中以「bomb」, 或「bom」開頭的字串相匹配。/man\b/　因為上述正規表示式模式以「\b」定位符結尾，所以可以與目標物件中以「human」, 「woman」或「man」結尾的字串相匹配。

為了能夠方便使用者更加靈活的設定匹配模式，正規表示式允許使用者在匹配模式中指定某乙個範圍而不侷限於具體的字元。例如：

/[a-z]/　　上述正規表示式將會與從a到z範圍內任何乙個大寫字母相匹配。

/[a-z]/　　上述正規表示式將會與從a到z範圍內任何乙個小寫字母相匹配。

/[0-9]/ 　上述正規表示式將會與從0到9範圍內任何乙個數字相匹配。

/([a-z][a-z][0-9])+/　上述正規表示式將會與任何由字母和數字組成的字串，如「ab0」等相匹配。

這裡需要提醒使用者注意的一點就是可以在正規表示式中使用「()」把字串組合在一起。「()」符號包含的內容必須同時出現在目標物件中。因此，上述正規表示式將無法與諸如「abc」等的字串匹配，因為「abc」中的最後乙個字元為字母而非數字。

如果我們希望在正規表示式中實現類似程式設計邏輯中的「或」運算，在多個不同的模式中任選乙個進行匹配的話，可以使用管道符「|」。例如：/to|too|2/　上述正規表示式將會與目標物件中的「to」, 「too」, 或「2」相匹配。

正規表示式中還有乙個較為常用的運算子，即否定符「[^]」。與我們前文所介紹的定位符「^」不同，否定符「[^]」規定目標物件中不能存在模式中所規定的字串。例如：/[^a-c]/　上述字串將會與目標物件中除a，b，和c之外的任何字元相匹配。一般來說，當「^」出現在「」內時就被視做否定運算子；而當「^」位於「」之外，或沒有「」時，則應當被視做定位符。

最後，當使用者需要在正規表示式的模式中加入元字元，並查詢其匹配物件時，可以使用轉義符「\」。例如：/th\*/ 　上述正規表示式將會與目標物件中的「th*」而非「the」等相匹配。

在構造正規表示式之後，就可以象數學表示式一樣來求值，也就是說，可以從左至右並按照乙個優先順序順序來求值。優先順序如下：

1．\ 轉義符

2．(), (?:), (?=), 圓括號和方括號

3．*, +, ?, , , 限定符

4．^, $, \anymetacharacter 位置和順序

5．|「或」操作

正規表示式

正規表示式正規表示式總結

正規表示式表示式

Linux正規表示式編寫正規表示式

正規表示式

正規表示式 正規表示式 總結

正規表示式 表示式

Linux正規表示式 編寫正規表示式

相關推薦

正規表示式正規表示式總結

正規表示式表示式

Linux正規表示式編寫正規表示式