做日誌分析工作的經常需要跟成千上萬的日誌條目打交道,為了在龐大的資料量中找到特定模式的資料,常常需要編寫很多複雜的
正規表示式
。例如列舉出日誌檔案中不包含某個特定字串的條目,找出不以某個特定字串打頭的條目,等等。
正規表示式中有前瞻(lookahead)和後顧(lookbehind)的概念,這兩個術語非常形象的描述了正則引擎的匹配行為。需要注意一點,正規表示式中的前和後和我們一般理解的前後有點不同。一段文字,我們一般習慣把文字開頭的方向稱作「前面」,文字末尾方向稱為「後面」。但是對於正規表示式引擎來說,因為它是從文字頭部向尾部開始解析的(可以通過正則選項控制解析方向),因此對於文字尾部方向,稱為「前」,因為這個時候,正則引擎還沒走到那塊,而對文字頭部方向,則稱為「後」,因為正則引擎已經走過了那一塊地方
。如下圖所示:
所謂的前瞻就是在正規表示式匹配到某個字元的時候,往「尚未解析過的文字」預先看一下,看是不是符合/不符合匹配模式,而後顧,就是在正則引擎已經匹配過的文字看看是不是符合/不符合匹配模式。符合和不符合特定匹配模式我們又稱為肯定式匹配和否定式匹配
。現代高階正規表示式引擎一般都支援都支援前瞻,對於後顧支援並不是很廣泛,因此我們這裡採用否定式前瞻來實現我們的需求。
測試資料:
2009-07-07 04:38:44 127.0.0.1 get /robots.txt
2009-07-07 04:38:44 127.0.0.1 get /posts/robotfile.txt
2009-07-08 04:38:44 127.0.0.1 get /
例如上面這幾條簡單的日誌條目,我們想實現兩個目標:
1. 把8號的資料過濾掉
2. 把那些不包含robots.txt字串的條目給找出來(只要url中包含robots.txt的都給過濾掉)。
前瞻的語法是:
(?!匹配模式)
我們先來實現第乙個目標——匹配不以特定字串開頭的條目
。這裡我們因為要排除一段連續的字串,因此匹配模式非常簡單,就是2009-07-08。實現如下:
^(?!2009-07-08).*?$
用expresso我們可以看到結果確實過濾掉8號的資料。
接下來,我們來實現第二個目標——排除包含特定字串的條目
。按照我們上面寫法,我照葫蘆畫瓢了一下:
^.*?(?!robots\.txt).*?$
這段正則用大白話描述就是:開頭任意字元,然後後面不要跟著robots.txt連續字串,然後再跟著任意個字元,字串結尾。
執行測試,結果發現:
沒有達到我們想要的效果。這是為什麼呢?我們給上面的正規表示式加上兩個捕獲分組除錯一下:
^(.*?)(?!robots\.txt)(.*?)$
測試結果:
我們看到,第乙個分組啥都沒有匹配到,而第二個分組卻匹配了整個字串。再回過頭來好好分析一下剛才那個正規表示式。實際上,當正則引擎解析到a區域的時候,就已經開始執行b區域的前瞻工作。這個時候發現當a區域為null的時候匹配成功——.*本來就允許匹配空字元,前瞻條件又滿足,a區域後面緊跟著的是「2009」字串,而並不是robots。因此整個匹配過程成功匹配到所有條目。
分析出原因之後我們對上述的正則進行修正,將.*?移入前瞻表示式,如下:
^(?!.*?robots).*$
測試結果:
使用正規表示式找出不包含特定字串的條目
概述 做日誌分析工作的經常需要跟成千上萬的日誌條目打交道,為了在龐大的資料量中找到特定模式的資料,常常需要編寫很多複雜的正規表示式。例如列舉出日誌檔案中不包含某個特定字串的條目,找出不以某個特定字串打頭的條目,等等。使用否定式前瞻 正規表示式中有前瞻 lookahead 和後顧 lookbehind...
使用正規表示式找出不包含特定字串的條目
做日誌分析工作的經常需要跟成千上萬的日誌條目打交道,為了在龐大的資料量中找到特定模式的資料,常常需要編寫很多複雜的正規表示式。例如列舉出日誌檔案中不包含某個特定字串的條目,找出不以某個特定字串打頭的條目,等等。正 則表示式中有前瞻 lookahead 和後顧 lookbehind 的概念,這兩個術語...
用正規表示式找出不包含連續字串abc的單詞
寫過一篇 正規表示式30分鐘入門教程 有讀者問 abc 表示不包含a b c中任意字元,我想實現不包含字串abc應該如何寫表示式?就我自己而言,這個問題最簡單的解決方法是使用程式語言的配合,找出那些包含abc的,剩下的就是不包含的了 懶人的風格。但我寫的是教程,讀者未必都有程式設計的基礎,有些只是使...