正規表示式

2021-09-29 18:28:21 字數 999 閱讀 4111

1.了解正規表示式

正規表示式是對字串操作的一種邏輯公式,用事先定義好的一些特定字元、及這些特定字元的組合,組成乙個「規則字串」,這個「規則字串」用來表達對字串的一種過濾邏輯。

正規表示式是用來匹配字串非常強大的工具,在其他程式語言中同樣有正規表示式的概念,python同樣不例外,利用了正規表示式,我們想要從返回的頁面內容提取出我們想要的內容就易如反掌了。

正規表示式的大致匹配過程是:

1.依次拿出表示式和文字中的字元比較,

2.如果每乙個字元都能匹配,則匹配成功;一旦有匹配不成功的字元則匹配失敗。

3.如果表示式中有量詞或邊界,這個過程會稍微有一些不同。

2.正規表示式的語法規則

3.正規表示式相關註解

(1)數量詞的貪婪模式與非貪婪模式

正規表示式通常用於在文字中查詢匹配的字串。python裡數量詞預設是貪婪的(在少數語言裡也可能是預設非貪婪),總是嘗試匹配盡可能多的字元;非貪婪的則相反,總是嘗試匹配盡可能少的字元。

例如:正規表示式」ab*」如果用於查詢」abbbc」,將找到」abbb」。而如果使用非貪婪的數量詞」ab*?」,將找到」a」。

注:我們一般使用非貪婪模式來提取。

(2)反斜槓問題

與大多數程式語言相同,正規表示式裡使用」\」作為轉義字元,這就可能造成反斜槓困擾。假如你需要匹配文字中的字元」\」,那麼使用程式語言表示的正規表示式裡將需要4個反斜槓」\\\\」:前兩個和後兩個分別用於在程式語言裡轉義成反斜槓,轉換成兩個反斜槓後再在正規表示式裡轉義成乙個反斜槓。

python裡的原生字串很好地解決了這個問題,這個例子中的正規表示式可以使用r」\\」表示。同樣,匹配乙個數字的」\\d」可以寫成r」\d」。有了原生字串,媽媽也不用擔心是不是漏寫了反斜槓,寫出來的表示式也更直觀。

正規表示式 正規表示式 總結

非負整數 d 正整數 0 9 1 9 0 9 非正整數 d 0 負整數 0 9 1 9 0 9 整數 d 非負浮點數 d d 正浮點數 0 9 0 9 1 9 0 9 0 9 1 9 0 9 0 9 0 9 1 9 0 9 非正浮點數 d d 0 0 負浮點數 正浮點數正則式 英文本串 a za z...

正規表示式 表示式

網域名稱 a za z0 9 a za z0 9 a za z0 9 a za z0 9 interneturl a za z s 或 http w w w 手機號碼 13 0 9 14 5 7 15 0 1 2 3 5 6 7 8 9 18 0 1 2 3 5 6 7 8 9 d 號碼 x x x...

Linux正規表示式 編寫正規表示式

為了所有實用化的用途,你可以通過使用程式產生正確的結果。然而,並不意味著程式總是如你所願的那樣正確地工作。多數情況下,如果程式不能產生想要的輸出,可以斷定真正的問題 排除輸入或語法錯誤 在於如何描述想要的東西。換句話說,應該考慮糾正問題的地方是描述想要的結果的表示式。表示式不完整或者公式表示得不正確...