替換好了,現在終於到了解決3位或4位區號問題的時間了。正規表示式裡的替換指的是有幾種規則,如果滿足其中任意一種規則都應該當成匹配,具體方法是用|把不同的規則分隔開。聽不明白?沒關係,看例子:
0\d-\d|0\d-\d這個表示式能匹配兩種以連字型大小分隔的**號碼:一種是三位區號,8位本地號(如010-12345678),一種是4位區號,7位本地號(0376-2233445)。
\(0\d\)[- ]?\d|0\d[- ]?\d這個表示式匹配3位區號的**號碼,其中區號可以用小括號括起來,也可以不用,區號與本地號間可以用連字型大小或空格間隔,也可以沒有間隔。你可以試試用替換|把這個表示式擴充套件成也支援4位區號的。
windows98|windows2000|windosxp這個例子是為了告訴你替換不僅僅能用於兩種規則,也能用於更多種規則。
分組我們已經提到了怎麼重複單個字元;但如果想要重複乙個字串又該怎麼辦?你可以用小括號來指定子表示式(也叫做分組),然後你就可以指定這個子表示式的重複次數了,你也可以對子表示式進行其它一些操作(教程後面會有介紹)。
(\d\.)\d是乙個簡單的ip位址匹配表示式。要理解這個表示式,請按下列順序分析它:\d代表1到3位的數字,(\d\.}代表三位數字加上乙個英文句號(這個整體也就是這個分組)重複3次,最後再加上乙個一到三位的數字(\d)。
理解這個表示式的關鍵是理解2[0-4]\d|25[0-5]|[01]?\d\d?,這裡我就不細說了,你自己應該能分析得出來它的意義。
後向引用
使用小括號指定乙個子表示式後,匹配這個子表示式的文字可以在表示式或其它程式中作進一步的處理。預設情況下,每個分組會自動擁有乙個組號,規則是:以分組的左括號為標誌,從左向右,第乙個分組的組號為1,第二個為2,以此類推。
後向引用用於重複搜尋前面某個分組匹配的文字。例如,\1代表分組1匹配的文字。難以理解?請看示例:
\b(\w+)\b\s+\1\b可以用來匹配重複的單詞,像go go, kitty kitty。首先是乙個單詞,也就是單詞開始處和結束處之間的多於乙個的字母或數字(\b(\w+)\b),然後是1個或幾個空白符(\s+,最後是前面匹配的那個單詞(\1)。
你也可以自己指定子表示式的組號或組名。要指定乙個子表示式的組名,請使用這樣的語法:(?\w+),這樣就把\w+的組名指定為word了。要反向引用這個分組捕獲的內容,你可以使用\k,所以上乙個例子也可以寫成這樣:\b(?\w+)\b\s*\k\b。
使用小括號的時候,還有很多特定用途的語法。下面列出了最常用的一些:
表4.分組語法 捕獲
(exp) 匹配exp,並捕獲文字到自動命名的組裡
(?exp) 匹配exp,並捕獲文字到名稱為name的組裡
(?:exp) 匹配exp,不捕獲匹配的文字
位置指定
(?=exp) 匹配exp前面的位置
(?<=exp) 匹配exp後面的位置
(?!exp) 匹配後面跟的不是exp的位置
(?).*(?=<\/\1>)匹配不包含屬性的簡單html標籤內裡的內容。(<?(\w+)>)指定了這樣的字首:被尖括號括起來的單詞(比如可能是),然後是.*(任意的字串),最後是乙個字尾(?=<\/\1>)。注意字尾裡的\/,它用到了前面提過的字元轉義;\1則是乙個反向引用,引用的正是捕獲的第一組,前面的(\w+)匹配的內容,這樣如果字首實際上是的話,字尾就是了。整個表示式匹配的是和之間的內容(再次提醒,不包括字首和字尾本身)。
注釋小括號的另一種用途是能過語法(?#comment)來包含注釋。要包含注釋的話,最好是啟用「忽略模式裡的空白符」選項,這樣在編寫表示式時能任意的新增空格,tab,換行,而實際使用時這些都將被忽略。啟用這個選項後,在#後面到這一行結束的所有文字都將被當成注釋忽略掉。例如,我們可以把上乙個表示式寫成這樣:
(?<= # 查詢字首,但不包含它 <(\w+)> # 查詢尖括號括起來的字母或數字(標籤) ) # 字首結束 .* # 匹配任意文字 (?= # 查詢字尾,但不包含它 <\/\1> # 查詢尖括號括起來的內容:前面是乙個"/",後面是先前捕獲的標籤 ) # 字尾結束
貪婪與懶惰
當正規表示式中包含能接受重複的量詞(指定數量的**,例如*,等)時,通常的行為是匹配盡可能多的字元。考慮這個表示式:a.*b,它將會匹配最長的以a開始,以b結束的字串。如果用它來搜尋aabab的話,它會匹配整個字串aabab。這被稱為貪婪匹配。
有時,我們更需要懶惰匹配,也就是匹配盡可能少的字元。前面給出的量詞都可以被轉化為懶惰匹配模式,只要在它後面加上乙個問號?。這樣.*?就意味著匹配任意數量的重複,但是在能使整個匹配成功的前提下使用最少的重複。現在看看懶惰版的例子吧:
a.*?b匹配最短的,以a開始,以b結束的字串。如果把它應用於aabab的話,它會匹配aab和ab。
表5.懶惰量詞 *? 重複任意次,但盡可能少重複
+? 重複1次或更多次,但盡可能少重複
?? 重複0次或1次,但盡可能少重複
? 重複n到m次,但盡可能少重複
? 重複n次以上,但盡可能少重複
還有些什麼東西沒提到
我已經描述了構造正規表示式的大量元素,還有一些我沒有提到的東西。下面是未提到的元素的列表,包含語法和簡單的說明。你可以在網上找到更詳細的參考資料來學習它們--當你需要用到它們的時候。如果你安裝了msdn library,你也可以在裡面找到關於.net下正規表示式詳細的文件。
表6.尚未討論的語法 \a 報警字元(列印它的效果是電腦嘀一聲)
\b 通常是單詞分界位置,但如果在字元類裡使用代表退格
\t 製表符,tab
\r 回車
\v 豎向製表符
\f 換頁符
\n 換行符
\e escape
\0nn ascii**中八進位制**為nn的字元
\xnn ascii**中十六進製制**為nn的字元
\unnnn unicode**中十六進製制**為nnnn的字元
\cn ascii控制字元。比如\cc代表ctrl+c
\a 字串開頭(類似^,但不受處理多行選項的影響)
\z 字串結尾或行尾(不受處理多行選項的影響)
\z 字串結尾(類似$,但不受處理多行選項的影響)
\g 當前搜尋的開頭
\p unicode中命名為name的字元類,例如\p
(?>exp) 貪婪子表示式
(?-exp) 平衡組
(?-exp) 平衡組
(?im-nsx:exp) 在子表示式exp中改變處理選項
(?im-nsx) 為表示式後面的部分改變處理選項
(?(exp)yes|no) 把exp當作零寬正向先行斷言,如果在這個位置能匹配,使用yes作為此組的表示式;否則使用no
(?(exp)yes) 同上,只是使用空表示式作為no
(?(name)yes|no) 如果命名為name的組捕獲到了內容,使用yes作為表示式;否則使用no
(?(name)yes) 同上,只是使用空表示式作為no
一些我認為你可能已經知道的術語的參考
字元 程式處理文字時最基本的單位,可能是字母,數字,標點符號,空格,換行符,漢字等等。
字串
0個或更多個字元的序列。
文字 文字,字串。
匹配 符合規則,檢驗是否符合規則,符合規則的部分。
php正規表示式詳解,PHP正規表示式使用詳解
操作符 描述 轉義符 圓括號和方括號 限定符 anymetacharacter 位置和順序 或 操作 全部符號解釋 字元 描述 將下乙個字元標記為乙個特殊字元 或乙個原義字元 或乙個 向後引用 或乙個八進位制轉義符。例如,n 匹配字元 n n 匹配乙個換行符。序列 匹配 而 則匹配 匹配輸入字串的開...
js 正規表示式捕獲型
測試demo 本文案例位址 分組有四種型別 見案例 捕獲型 非捕獲型 正向前瞻型 反向前瞻型 捕獲性分組 就是捕獲分組所匹配的內容暫且儲存在某個地方,以便下次使用,捕獲性分組以 表示,有些地方將取得捕獲性分組所匹配結果的過程稱之為 反向引用 測試demo中有針對這個的專門案例 非捕獲性分組不捕獲分組...
正規表示式 分組與捕獲
之前使用正規表示式的時候大多數狀況下只是用用匹配表示式,為什麼說是匹配表示式呢,因為其實替換文字也可以使用表示式,我稱之為替換表示式。因為通常使用正規表示式的大多會是以下情況,比如把一段文字中的a字串更改為b字串 待匹配文字 abcdabcd 匹配表示式 b 替換文字 e 替換結果 aecdaecd...