字串是程式設計時涉及到的最多的一種資料結構,對字串進行操作的需求幾乎無處不在。比如判斷乙個字串是否是合法的email位址,雖然可以程式設計提取@
前後的子串,再分別判斷是否是單詞和網域名稱,但這樣做不但麻煩,而且**難以復用。
正規表示式是一種用來匹配字串的強有力的**。它的設計思想是用一種描述性的語言來給字串定義乙個規則,凡是符合規則的字串,我們就認為它「匹配」了,否則,該字串就是不合法的。
所以我們判斷乙個字串是否是合法的email的方法是:
建立乙個匹配email的正規表示式;
用該正規表示式去匹配使用者的輸入來判斷是否合法。
因為正規表示式也是用字串表示的,所以,我們要首先了解如何用字元來描述字元。
在正規表示式中,如果直接給出字元,就是精確匹配。用\d
可以匹配乙個數字,\w
可以匹配乙個字母或數字,所以:
.
可以匹配任意字元,所以:
要匹配變長的字元,在正規表示式中,用*
表示任意個字元(包括0個),用+
表示至少乙個字元,用?
表示0個或1個字元,用表示n個字元,用
表示n-m個字元:
來看乙個複雜的例子:\d\s+\d
。
我們來從左到右解讀一下:
\d
表示匹配3個數字,例如'010'
;
\s
可以匹配乙個空格(也包括tab等空白符),所以\s+
表示至少有乙個空格,例如匹配' '
,' '
等;
\d
表示3-8個數字,例如'1234567'
。
綜合起來,上面的正規表示式可以匹配以任意個空格隔開的帶區號的**號碼。
如果要匹配'010-12345'
這樣的號碼呢?由於'-'
是特殊字元,在正規表示式中,要用'\'
轉義,所以,上面的正則是\d\-\d
。
但是,仍然無法匹配'010 - 12345'
,因為帶有空格。所以我們需要更複雜的匹配方式。
要做更精確地匹配,可以用表示範圍,比如:
a|b
可以匹配a或b,所以[p|p]ython
可以匹配'python'
或者'python'
。
^
表示行的開頭,^\d
表示必須以數字開頭。
$
表示行的結束,\d$
表示必須以數字結束。
你可能注意到了,py
也可以匹配'python'
,但是加上^py$
就變成了整行匹配,就只能匹配'py'
了。
最後需要特別指出的是,正則匹配預設是貪婪匹配,也就是匹配盡可能多的字元。舉例如下,匹配出數字後面的0
:
>>> re.match(r'^(\d+)(0*)$', '102300').groups()
('102300', '')
由於\d+
採用貪婪匹配,直接把後面的0
全部匹配了,結果0*
只能匹配空字串了。
必須讓\d+
採用非貪婪匹配(也就是盡可能少匹配),才能把後面的0
匹配出來,加個?
就可以讓\d+
採用非貪婪匹配:
>>> re.match(r'^(\d+?)(0*)$', '102300').groups()
('1023', '00')
正規表示式 正則入門
先從乙個例子開始正規表示式。書寫乙個匹配手機號的正規表示式,為了方便討論,假定手機號是1開頭,第二位只能是3 5 8中的其中乙個,總共11位的數字,形如13 匹配手機號的正規表示式為 1 358 d 下面介紹此正規表示式中的各個符號的含義。表示字串的開頭,後面緊接著1,表示匹配的字串要以 1 開頭。...
正規表示式入門
對於文字字元,有11個字元被保留作特殊用途。他們是 這些特殊字元也被稱作元字元 不可顯示字元 可以使用特殊字串行來代表某些不可顯示字元 代表tab 0x09 代表回車符 0x0d 代表換行符 0x0a 字符集 字符集是由一對方括號 括起來的字元集合。使用字符集,你可以告訴正規表示式引擎僅僅匹配多個字...
正規表示式入門
老師說過 正規表示式就是用字串讀取字串!學習正規表示式的最好方法是從例子開始,理解例子之後再自己對例子進行修改,實驗。下面給出了不少簡單的例子,並對它們作了詳細的說明。假設你在一篇英文 裡查詢hi,你可以使用正規表示式hi。這幾乎是最簡單的正規表示式了,它可以精確匹配這樣的字串 由兩個字元組成,前乙...