no1:
在正規表示式中,如果直接給出字元,就是精確匹配。用\d
可以匹配乙個數字,\w
可以匹配乙個字母或數字,所以:
.
可以匹配任意字元,所以:
no2:
要匹配變長的字元,在正規表示式中,用*
表示任意個字元(包括0個),用+
表示至少乙個字元,用?
表示0個或1個字元,用表示n個字元,用
表示n-m個字元:
來看乙個複雜的例子:\d\s+\d
。
我們來從左到右解讀一下:
\d
表示匹配3個數字,例如'010'
;
\s
可以匹配乙個空格(也包括tab等空白符),所以\s+
表示至少有乙個空格,例如匹配' '
,' '
等;
\d
表示3-8個數字,例如'1234567'
。
綜合起來,上面的正規表示式可以匹配以任意個空格隔開的帶區號的**號碼。
如果要匹配'010-12345'
這樣的號碼呢?由於'-'
是特殊字元,在正規表示式中,要用'\'
轉義,所以,上面的正則是\d\-\d
。
no3:
要做更精確地匹配,可以用表示範圍,比如:
a|b
可以匹配a或b,所以(p|p)ython
可以匹配'python'
或者'python'
。
^
表示行的開頭,^\d
表示必須以數字開頭。
$
表示行的結束,\d$
表示必須以數字結束。
你可能注意到了,py
也可以匹配'python'
,但是加上^py$
就變成了整行匹配,就只能匹配'py'
了
no4:
>>> importre>>> re.match(r'
^\d\-\d$
', '
010-12345')
<_sre.sre_match object span="(0," match="
010-12345
">
>>> re.match(r'
^\d\-\d$
', '
010 12345')
>>>
match()
方法判斷是否匹配,如果匹配成功,返回乙個match
物件,否則返回none
。
no5:
>>> 'a b c
'.split('')
['a', '
b', '', '', '
c']
>>> re.split(r'\s+', '
a b c')
['a', '
b', '
c']
>>> re.split(r'[\s\,]+
', '
a,b, c d')
['a', '
b', '
c', '
d']
>>> re.split(r'no6:分組[\s\,\;]+
', '
a,b;; c d')
['a', '
b', '
c', '
d']
識別合法的時間
>>> t = '對於19:05:30
'>>> m = re.match(r'
^(0[0-9]|1[0-9]|2[0-3]|[0-9])\:(0[0-9]|1[0-9]|2[0-9]|3[0-9]|4[0-9]|5[0-9]|[0-9])\:(0[0-9]|1[0-9]|2[0-9]|3[0-9]|4[0-9]|5[0-9]|[0-9])$
', t)
>>>m.groups()('
19', '
05', '
30')
'2-30'
,'4-31'
這樣的非法日期,用正則還是識別不了,或者說寫出來非常困難,這時就需要程式配合識別了
no7:
貪婪匹配
非貪婪匹配
no8:
預編譯正規表示式
python正規表示式元字元 正規表示式
字元 描述將下乙個字元標記為乙個特殊字元 或乙個原義字元 或乙個 向後引用 或乙個八進位制轉義符。例如,n 匹配字元 n n 匹配乙個換行符。序列 匹配 而 則匹配 匹配輸入字串的開始位置。如果設定了 regexp 物件的 multiline 屬性,也匹配 n 或 r 之後的位置。匹配輸入字串的結束...
Python 正規表示式
1.在python中,所有和正規表示式相關的功能都包含在re模組中。2.字元 表示 字串的末尾 如 road 則表示 只有當 road 出現在乙個字串的尾部時才會匹配。3.字元 表示 字元中的開始 如 road 則表示 只有當 road 出現在乙個字串的頭部時才會匹配。4.利用re.sub函式對字串...
Python正規表示式
學習python自然而然就不得不面對正規表示式這個難題。當初在沒有學習python之前,自己也曾經嘗試著學習過正規表示式,但是那時候感覺很麻煩,很難懂,結果就是不了了之。但是現在學習python我用的書是 python基礎教程 第二版 這本書中對re模組的講解很簡單易懂,內容不多但起碼把人領進門了,...