python 正規表示式

字元含義.

表示匹配除了換行符外的任何字元

注：通過設定 re.dotall 標誌可以使 . 匹配任何字元（包含換行符）

|a | b，表示匹配正規表示式 a 或者 b

^1.（脫字元）匹配輸入字串的開始位置

2.如果設定了 re.multiline 標誌，^ 也匹配換行符之後的位置

$1.匹配輸入字串的結束位置

2.如果設定了re.multiline標誌，$也匹配換行符之前的位置

\1.將乙個普通字元變成特殊字元，例如 \d 表示匹配所有十進位制數字

2.解除元字元的特殊功能，例如 . 表示匹配點號本身

3.引用序號對應的子組所匹配的字串

4.詳見下方列舉

[…]字元類，匹配所包含的任意乙個字元

注1：連字元 - 如果出現在字串中間表示字元範圍描述；如果如果出現在首位則僅作為普通字元

注2：特殊字元僅有反斜線 \ 保持特殊含義，用於轉義字元。其它特殊字元如 *、+、? 等均作為普通字元匹配

注3：脫字元 ^ 如果出現在首位則表示匹配不包含其中的任意字元；如果 ^ 出現在字串中間就僅作為普通字元匹配

m 和 n 均為非負整數，其中 m <= n，表示前邊的 re 匹配 m ~ n 次

注1：表示至少匹配 m 次

注2：等價於

注3：表示需要匹配 n 次

*匹配前面的子表示式零次或多次，等價於

+匹配前面的子表示式一次或多次，等價於

?匹配前面的子表示式零次或一次，等價於

*?, +?, ??

預設情況下、+ 和 ? 的匹配模式是貪婪模式（即會盡可能多地匹配符合規則的字串）；?、+? 和 ?? 表示啟用對應的非貪婪模式

比如：對於字串「fishccc」，正規表示式 fishc+ 會匹配整個字串，而 fishc+? 則匹配「fishc」

?同上，啟用非貪婪模式，即只匹配 m 次

(…)匹配圓括號中的正規表示式，或者指定乙個子組的開始和結束位置

注：子組的內容可以在匹配之後被 \數字再次引用

比如：(\w+) \1 可以字串「fishc fishc.com」中的「fishc fishc」（注意有空格）

(?…)

(? 開頭的表示為正規表示式的擴充套件語法（下邊這些是 python 支援的所有擴充套件語法）

(?ailmsux)

1.(? 後可以緊跟著『a』，』i』，』l』，』m』，』s』，』u』，』x』中的乙個或多個字元，只能在正規表示式的開頭使用

2.每乙個字元對應一種匹配標誌：re-a（只匹配 ascii 字元），re-i（忽略大小寫），re-l（區域設定），re-m（多行模式）, re-s（. 匹配任何符號），re-x（詳細表示式），包含這些字元將會影響整個正規表示式的規則

3.當你不想通過 re.compile() 設定正規表示式標誌，這種方法就非常有用啦

注意，由於 (?x) 決定正規表示式如何被解析，所以它應該總是被放在最前邊（最多允許前邊有空白符）。如果 (?x) 的前邊是非空白字元，那麼 (?x) 就發揮不了作用了

(?:…)

非捕獲組，即該子組匹配的字串無法從後邊獲取

(?p…)

命名組，通過組的名字（name）即可訪問到子組匹配的字串

(?p=name)

反向引用乙個命名組，它匹配指定命名組匹配的任何內容

(?#…)

注釋，括號中的內容將被忽略

(?=…)

前向肯定斷言。如果當前包含的正規表示式（這裡以 … 表示）在當前位置成功匹配，則代表成功，否則失敗。一旦該部分正規表示式被匹配引擎嘗試過，就不會繼續進行匹配了；剩下的模式在此斷言開始的地方繼續嘗試

比如:love(?=fishc) 只匹配後邊緊跟著「fishc」的字串「love」

(?!…)

前向否定斷言。這跟前向肯定斷言相反（不匹配則表示成功，匹配表示失敗）

比如：fishc(?!.com) 只匹配後邊不是「.com」的字串「fishc」

(?<=…)

後向肯定斷言。跟前向肯定斷言一樣，只是方向相反

比如：?<=love)fishc 只匹配前邊緊跟著「love」的字串「fishc」

(?後向否定斷言。跟前向肯定斷言一樣，只是方向相反

比如：(?

(?(id/name)yes-pattern|no-pattern)

1.如果子組的序號或名字存在的話，則嘗試 yes-pattern 匹配模式；否則嘗試 no-pattern 匹配模式

2.no-pattern 是可選的

比如：(<)?(\w+@\w+(?:\.\w+)+)(?(1)>|$) 是乙個匹配郵件格式的正規表示式，可以匹配 [email protected] 和『[email protected]』，但是不會匹配[email protected]、[email protected]

\下邊列舉了由字元『\』和另乙個字元組成的特殊含義。注意，』\』 + 元字元的組合可以解除元字元的特殊功能

\序號1.引用序號對應的子組所匹配的字串，子組的序號從 1 開始計算

2.如果序號是以 0 開頭，或者 3 個數字的長度。那麼不會被用於引用對應的子組，而是用於匹配八進位制數字所表示的 ascii 碼值對應的字元

比如：(.+) \1 會匹配「fishc fishc」或「55 55」，但不會匹配「fishcfishc」（注意，因為子組後邊還有乙個空格）

\a匹配輸入字串的開始位置

\z匹配輸入字串的結束位置

\b匹配乙個單詞邊界，單詞被定義為 unidcode 的字母數字或下橫線字元

比如：\bfishc\b 會匹配字串「love fishc」、fishc.」或「(fishc)」

\b匹配非單詞邊界，其實就是與 \b 相反

比如：py\b 會匹配字串「python」、」py3」或「py2」，但不會匹配「py 「、」py.」或「py!」

\d1.對於 unicode（str 型別）模式：匹配任何乙個數字，包括 [0-9] 和其他數字字元；如果開啟了 re.ascii 標誌，就只匹配 [0-9]

2.對於 8 位（bytes 型別）模式：匹配 [0-9] 中任何乙個數字

\d匹配任何非 unicode 的數字，其實就是與 \d 相反；如果開啟了 re.ascii 標誌，則相當於匹配 [^0-9]

\s1.對於 unicode（str 型別）模式：匹配 unicode 中的空白字元（包括 [ \t\n\r\f\v] 以及其他空白字元）；如果開啟了 re.ascii 標誌，就只匹配 [\t\n\r\f\v]

2.對於 8 位（bytes 型別）模式：匹配 ascii 中定義的空白字元，即 [ \t\n\r\f\v]

\s匹配任何非 unicode 中的空白字元，其實就是與 \s 相反；如果開啟了 re.ascii 標誌，則相當於匹配 [^ \t\n\r\f\v]

\w1.對於 unicode（str 型別）模式：匹配任何 unicode 的單詞字元，基本上所有語言的字元都可以匹配，當然也包括數字和下橫線；如果開啟了 re.ascii 標誌，就只匹配 [a-za-z0-9_]

2.對於 8 位（bytes 型別）模式：匹配 ascii 中定義的字母數字，即 [a-za-z0-9_]

\w匹配任何非 unicode 的單詞字元，其實就是與 \w 相反；如果開啟了 re.ascii 標誌，則相當於 [^a-za-z0-9_]

轉義符號

正規表示式還支援大部分 python 字串的轉義符號：\a，\b，\f，\n，\r，\t，\u，\u，\v，\x，\\

注1：\b 通常用於匹配乙個單詞邊界，只有在字元類中才表示「退格」

注2：\u 和 \u 只有在 unicode 模式下才會被識別

注3：八進位制轉義（\數字）是有限制的，如果第乙個數字是 0，或者如果有 3 個八進位制數字，那麼就被認為是八進位制數；其他情況則被認為是子組引用；至於字串，八進位制轉義總是最多只能是 3 個數字的長度

python 正規表示式

python正規表示式元字元正規表示式

Python 正規表示式

Python正規表示式

python 正規表示式

python正規表示式元字元 正規表示式

Python 正規表示式

Python正規表示式

相關推薦

python正規表示式元字元正規表示式