正規表示式(regular expression)主要功能是從字串(string)中通過特定的模式(pattern),搜尋想要找到的內容。
在python中使用正規表示式需要標準庫中的乙個包re。
正規表示式常用的5種操作
re.match(pattern, string) # 從頭開始匹配
m = re.match("[0-9]","756abc6def") #[0-9] 僅匹配乙個字元print(m.group())
#輸出 7
m = re.match("[0-9][0-9]","75678abc6def")
print(m.group())
#輸出 75
m = re.match("[0-9]","75678abc6def") #表示匹配0到10次
print(m.group())
#輸出 75678
re.findall(pattern, string) # 找到所有要匹配的字元並返回列**式
m = re.findall("[0-9]","7578abc6def78sjdo") #匹配所有的數字if m:
print(m)
#輸出 ['7578', '6', '78']
m = re.findall("[a-za-z]","7578abac6def78sjddo") #匹配所有的字母
if m:
print(m)
#輸出 ['abac', 'def', 'sjddo']
re.search(pattern, string) # 匹配整個字串,直到找到乙個匹配
m = re.search("\d+","abac65def78sjddo")if m:
print(m.group())
#輸出 65
re.sub(pattern, repl, string, count,flag) # 替換匹配到的字元
m = re.sub("\d+","|","abac65def78sjddo") #找到所有的數字,用|替換if m:
print(m)
#輸出 abac|def|sjddo
m = re.sub("\d+","|","abac65def78sjddo",count=1) #替換一次
if m:
print(m)
#輸出 abac|def78sjddo
m = re.sub("\s*","","ab a8s jd do") #找到所有的空格並刪除
if m:
print(m)
#輸出 aba8sjddo
re.split(pattern, string) # 將匹配到的格式當做分割點對字串分割成列表
m = re.split('[0-9]','alex1tony2falsh3rambo')print(m)
#輸出 ['alex', 'tony', 'falsh', 'rambo']
匹配格式
模式描述
^匹配字串的開頭
$匹配字串的末尾。
.匹配任意字元,除了換行符,當re.dotall標記被指定時,則可以匹配包括換行符的任意字元。
[...]
用來表示一組字元,單獨列出:[amk] 匹配 'a','m'或'k'
[^...]
不在中的字元:[^abc] 匹配除了a,b,c之外的字元。
re*匹配0個或多個的表示式。
re+匹配1個或多個的表示式。
re?匹配0個或1個由前面的正規表示式定義的片段,非貪婪方式
rere
精確匹配n個前面表示式。
re匹配 n 到 m 次由前面的正規表示式定義的片段,貪婪方式
a| b
匹配a或b
(re)
g匹配括號內的表示式,也表示乙個組
(?imx)
正規表示式包含三種可選標誌:i, m, 或 x 。只影響括號中的區域。
(?-imx)
正規表示式關閉 i, m, 或 x 可選標誌。只影響括號中的區域。
(?: re)
類似 (...), 但是不表示乙個組
(?imx: re)
在括號中使用i, m, 或 x 可選標誌
(?-imx: re)
在括號中不使用i, m, 或 x 可選標誌
(?#...)
注釋.(?= re)
前向肯定界定符。如果所含正規表示式,以 ... 表示,在當前位置成功匹配時成功,否則失敗。但一旦所含表示式已經嘗試,匹配引擎根本沒有提高;模式的剩餘部分還要嘗試界定符的右邊。
(?! re)
前向否定界定符。與肯定界定符相反;當所含表示式不能在字串當前位置匹配時成功
(?> re)
匹配的獨立模式,省去回溯。
\w匹配字母數字
\w匹配非字母數字
\s匹配任意空白字元,等價於 [\t\n\r\f].
\s匹配任意非空字元
\d匹配任意數字,等價於 [0-9].
\d匹配任意非數字
\a匹配字串開始
\z匹配字串結束,如果是存在換行,只匹配到換行前的結束字串。c
\z匹配字串結束
\g匹配最後匹配完成的位置。
\b匹配乙個單詞邊界,也就是指單詞和空格間的位置。例如, 'er\b' 可以匹配"never" 中的 'er',但不能匹配 "verb" 中的 'er'。
\b匹配非單詞邊界。'er\b' 能匹配 "verb" 中的 'er',但不能匹配 "never" 中的 'er'。
\n, \t, 等.
匹配乙個換行符。匹配乙個製表符。等
\1...\9
匹配第n個分組的子表示式。
\10匹配第n個分組的子表示式,如果它經匹配。否則指的是八進位制字元碼的表示式。
幾個常見的正則例子
1、匹配手機號
phone_str = "hey my name is alex, and my phone number is 13651054607, please call me if you are pretty!"phone_str2 = "hey my name is alex, and my phone number is 18651054604, please call me if you are pretty!"
#"(1)([358]\d)"中,(1)表示第一位是1,[358]表示第二位是3或5或8,\d表示剩下的還有9位數字
m = re.search("(1)([358]\d)",phone_str2)
if m:
print(m.group())
#輸出 18651054604
2、匹配ip位址
ip_addr = "inet 192.168.60.223 netmask 0xffffff00 broadcast 192.168.60.255"#匹配四段1-3位數的數字,不判斷合法性
m = re.search("\d\.\d\.\d\.\d", ip_addr)
print(m.group())
3、匹配email
email = "[email protected] "m = re.search(r"[0-9.a-z]@[0-9.a-z].[0-9a-z]", email)
print(m.group())
python正規表示式元字元 正規表示式
字元 描述將下乙個字元標記為乙個特殊字元 或乙個原義字元 或乙個 向後引用 或乙個八進位制轉義符。例如,n 匹配字元 n n 匹配乙個換行符。序列 匹配 而 則匹配 匹配輸入字串的開始位置。如果設定了 regexp 物件的 multiline 屬性,也匹配 n 或 r 之後的位置。匹配輸入字串的結束...
Python 正規表示式
1.在python中,所有和正規表示式相關的功能都包含在re模組中。2.字元 表示 字串的末尾 如 road 則表示 只有當 road 出現在乙個字串的尾部時才會匹配。3.字元 表示 字元中的開始 如 road 則表示 只有當 road 出現在乙個字串的頭部時才會匹配。4.利用re.sub函式對字串...
Python正規表示式
學習python自然而然就不得不面對正規表示式這個難題。當初在沒有學習python之前,自己也曾經嘗試著學習過正規表示式,但是那時候感覺很麻煩,很難懂,結果就是不了了之。但是現在學習python我用的書是 python基礎教程 第二版 這本書中對re模組的講解很簡單易懂,內容不多但起碼把人領進門了,...