答案一 d+.?d+.?d+.?d+
不好,乙個是太繁瑣,另乙個是連位數都控制不了
答案二 d+.?d+.?d+.?d+
一般般,複雜但是起碼能把位數控制在合理範圍
答案三 (d+.)d+.
利用子表示式,將123.這種數字加小數點看做乙個整體字元,對其規定重複匹配的次數,既簡潔,效果又好。所以只要你將幾個字元組合用圓括號括起來,那麼你就可以把乙個圓括號內的內容當做乙個字元,外面可以加我們之前講過的所有元字元來控制匹配。
2.向前向後查詢
現在,我們終於來到了向前向後查詢這一塊。為什麼說終於來到這了呢?還記得我們在初級篇最開始的例子嗎?
假如你在寫乙個爬蟲,你得到了乙個網頁的html原始碼。其中有一段html
你想要把這個hello world提取出來
import re
key = r"
"#這段是你要匹配的文字
p1 = r"(?<=)"#這是我們寫的正規表示式規則,你現在可以不理解啥意思
pattern1 = re.compile(p1)#我們在編譯這段正規表示式
matcher1 = re.search(pattern1,key)#在源文字中搜尋符合正規表示式的部分
print matcher1.group(0)#列印出來
這個正規表示式
p1 = r"(?<=之間的內容,現在你知道html有多級標題,你想把每一級的標題內容都提取出來。你也許會這樣寫:
p = r".*?"
這樣一來,你就可以將html頁面內所有的標題內容全部匹配出來。即到的內容都可以被提取出來。但是我們之前說過,寫正規表示式困難的不是匹配到想要的內容,而是盡可能的不匹配到不想要的內容。在這個例子中,很有可能你就會被下面這樣的用例玩壞。
比方說"
pattern1 = re.compile(p1)
m1 = re.search(pattern1,key)
print m1.group(0)#這裡是會報錯的,因為匹配不到,你如果將源字串改成
結尾就能看出效果
看到1了嗎?原本那個位置應該是[1-6],但是我們寫的是1,我們之前說過,轉義符幹的活就是把特殊的字元轉成一般的字元,把一般的字元轉成特殊字元。普普通通的數字1被轉移成什麼了呢?在這裡1表示第乙個子表示式,也就是說,它是動態的,是隨著前面第乙個子表示式的匹配到的東西而變化的。比方說前面的子表示式內是[1-6],在實際字串中找到了1,那麼後面的1就是1,如果前面的子表示式在實際字串中找到了2,那麼後面的1就是2。
類似的,2,3,....就代表第二個第三個子表示式。
所以回溯引用是正規表示式內的乙個「動態」的正規表示式,讓你根據實際的情況變化進行匹配。
中級篇就到這裡,其實正規表示式還有很多細節還沒有寫出來,也有很多元字元我沒有交代,但掌握了綱要,懂得原理之後剩下的就類似於查表構造這種活了。
建議看到這的朋友看看《正規表示式必知必會》,初級篇和這篇中有幾個例子也是取材於此。
蒼生苦難,不知伊於胡底
引用文章出處:
Python 正規表示式入門(中級篇)
子表示式的概念特別好理解。其實它就是將幾個字元的組合形式看做乙個大的 字元 不好理解?舉個栗子 我們要匹配類似ip位址這種形式的字元 暫且不考慮數值範圍的合理性,這個留作學完之後的思考題吧 形如192.168.1.1這樣的位址我們怎麼寫表示式呢?答案一 d d d d 不好,乙個是太繁瑣,另乙個是連...
python 正規表示式(中級)
子表示式的概念特別好理解。其實它就是將幾個字元的組合形式看做乙個大的 字元 不好理解?舉個栗子 我們要匹配類似ip位址這種形式的字元 暫且不考慮數值範圍的合理性,這個留作學完之後的思考題吧 形如192.168.1.1這樣的位址我們怎麼寫表示式呢?答案一 d d d d 不好,乙個是太繁瑣,另乙個是連...
正規表示式高階中級
這篇文章寫的很好,高階 編譯模式 共三塊知識,1.子表示式 d d ip 1.2.123.101 pattern r d d a re.match pattern,ip a.group 1.1.222.111 2.向前向後匹配 r 3.回溯引用 第二個子表示式匹配的東西與第乙個表示式一致。r 注 轉...