python 正規表示式

子表示式的概念特別好理解。其實它就是將幾個字元的組合形式看做乙個大的「字元」。不好理解？舉個栗子：我們要匹配類似ip位址這種形式的字元（暫且不考慮數值範圍的合理性，這個留作學完之後的思考題吧）。形如192.168.1.1這樣的位址我們怎麼寫表示式呢？

答案一 \d+.?\d+.?\d+.?\d+

不好，乙個是太繁瑣，另乙個是連位數都控制不了

答案二 \d+.?\d+.?\d+.?\d+

一般般，複雜但是起碼能把位數控制在合理範圍

答案三 (\d+\.)\d+\.

利用子表示式，將123.這種數字加小數點看做乙個整體字元，對其規定重複匹配的次數，既簡潔，效果又好。所以只要你將幾個字元組合用圓括號括起來，那麼你就可以把乙個圓括號內的內容當做乙個字元，外面可以加我們之前講過的所有元字元來控制匹配。

現在，我們終於來到了向前向後查詢這一塊。為什麼說終於來到這了呢？還記得我們在初級篇最開始的例子嗎？

假如你在寫乙個爬蟲，你得到了乙個網頁的html原始碼。其中有一段html
hello worldh1>
body>
html>
你想要把這個hello world提取出來
import re
key = r"
hello worldh1>
body>
html>"#這段是你要匹配的文字
p1 = r"(?<=
).+?(?=h1>)"#這是我們寫的正規表示式規則，你現在可以不理解啥意思
pattern1 = re.compile(p1)#我們在編譯這段正規表示式
matcher1 = re.search(pattern1,key)#在源文字中搜尋符合正規表示式的部分
print matcher1.group(0)#列印出來

這個正規表示式

p1 =
r"(?<=之間的內容，現在你知道html有多級標題，你想把每一級的標題內容都提取出來。你也許會這樣寫：
p =

r".*?"

這樣一來，你就可以將html頁面內所有的標題內容全部匹配出來。即到的內容都可以被提取出來。但是我們之前說過，寫正規表示式困難的不是匹配到想要的內容，而是盡可能的不匹配到不想要的內容。在這個例子中，很有可能你就會被下面這樣的用例玩壞。

比方說

hello worldh3>

發現後面的了嗎？我們不管是怎麼寫出來這樣的標題的，但實實在在的是我們的正規表示式同樣會把這裡面的hello world匹配出來。這時候就是回溯引用的重要作用。下面就是乙個示例：

import rekey =

r"結尾就能看出效果

看到\1了嗎？原本那個位置應該是[1-6]，但是我們寫的是\1，我們之前說過，轉義符\幹的活就是把特殊的字元轉成一般的字元，把一般的字元轉成特殊字元。普普通通的數字1被轉移成什麼了呢？在這裡1表示第乙個子表示式，也就是說，它是動態的，是隨著前面第乙個子表示式的匹配到的東西而變化的。比方說前面的子表示式內是[1-6]，在實際字串中找到了1，那麼後面的\1就是1，如果前面的子表示式在實際字串中找到了2，那麼後面的\1就是2。

類似的，\2,\3,....就代表第二個第三個子表示式。

所以回溯引用是正規表示式內的乙個「動態」的正規表示式，讓你根據實際的情況變化進行匹配。

中級篇就到這裡，其實正規表示式還有很多細節還沒有寫出來，也有很多元字元我沒有交代，但掌握了綱要，懂得原理之後剩下的就類似於查表構造這種活了。

建議看到這的朋友看看《正規表示式必知必會》，初級篇和這篇中有幾個例子也是取材於此。

python 正規表示式

python正規表示式元字元正規表示式

Python 正規表示式

Python正規表示式

python 正規表示式

python正規表示式元字元 正規表示式

Python 正規表示式

Python正規表示式

相關推薦

python正規表示式元字元正規表示式