正規表示式入門

字串是程式設計時涉及到的最多的一種資料結構，對字串進行操作的需求幾乎無處不在。比如判斷乙個字串是否是合法的email位址，雖然可以程式設計提取@前後的子串，再分別判斷是否是單詞和網域名稱，但這樣做不但麻煩，而且**難以復用。

正規表示式是一種用來匹配字串的強有力的**。它的設計思想是用一種描述性的語言來給字串定義乙個規則，凡是符合規則的字串，我們就認為它「匹配」了，否則，該字串就是不合法的。

所以我們判斷乙個字串是否是合法的email的方法是：

建立乙個匹配email的正規表示式；

用該正規表示式去匹配使用者的輸入來判斷是否合法。

因為正規表示式也是用字串表示的，所以，我們要首先了解如何用字元來描述字元。

在正規表示式中，如果直接給出字元，就是精確匹配。用\d可以匹配乙個數字，\w可以匹配乙個字母或數字，所以：

.可以匹配任意字元，所以：

要匹配變長的字元，在正規表示式中，用*表示任意個字元（包括0個），用+表示至少乙個字元，用?表示0個或1個字元，用表示n個字元，用表示n-m個字元：

來看乙個複雜的例子：\d\s+\d。

我們來從左到右解讀一下：

\d表示匹配3個數字，例如'010'；

\s可以匹配乙個空格（也包括tab等空白符），所以\s+表示至少有乙個空格，例如匹配' '，' '等；

\d表示3-8個數字，例如'1234567'。

綜合起來，上面的正規表示式可以匹配以任意個空格隔開的帶區號的**號碼。

如果要匹配'010-12345'這樣的號碼呢？由於'-'是特殊字元，在正規表示式中，要用'\'轉義，所以，上面的正則是\d\-\d。

但是，仍然無法匹配'010 - 12345'，因為帶有空格。所以我們需要更複雜的匹配方式。

要做更精確地匹配，可以用表示範圍，比如：

a|b可以匹配a或b，所以[p|p]ython可以匹配'python'或者'python'。

^表示行的開頭，^\d表示必須以數字開頭。

$表示行的結束，\d$表示必須以數字結束。

你可能注意到了，py也可以匹配'python'，但是加上^py$就變成了整行匹配，就只能匹配'py'了。

最後需要特別指出的是，正則匹配預設是貪婪匹配，也就是匹配盡可能多的字元。舉例如下，匹配出數字後面的0：

>>> re.match(r'^(\d+)(0*)$', '102300').groups()
('102300', '')

由於\d+採用貪婪匹配，直接把後面的0全部匹配了，結果0*只能匹配空字串了。

必須讓\d+採用非貪婪匹配（也就是盡可能少匹配），才能把後面的0匹配出來，加個?就可以讓\d+採用非貪婪匹配：

>>> re.match(r'^(\d+?)(0*)$', '102300').groups()
('1023', '00')

正規表示式正則入門

先從乙個例子開始正規表示式。書寫乙個匹配手機號的正規表示式，為了方便討論，假定手機號是1開頭，第二位只能是3 5 8中的其中乙個，總共11位的數字，形如13 匹配手機號的正規表示式為 1 358 d 下面介紹此正規表示式中的各個符號的含義。表示字串的開頭，後面緊接著1，表示匹配的字串要以 1 開頭。...

正規表示式入門

對於文字字元，有11個字元被保留作特殊用途。他們是這些特殊字元也被稱作元字元不可顯示字元可以使用特殊字串行來代表某些不可顯示字元代表tab 0x09 代表回車符 0x0d 代表換行符 0x0a 字符集字符集是由一對方括號括起來的字元集合。使用字符集，你可以告訴正規表示式引擎僅僅匹配多個字...

正規表示式入門

老師說過正規表示式就是用字串讀取字串！學習正規表示式的最好方法是從例子開始，理解例子之後再自己對例子進行修改，實驗。下面給出了不少簡單的例子，並對它們作了詳細的說明。假設你在一篇英文裡查詢hi，你可以使用正規表示式hi。這幾乎是最簡單的正規表示式了，它可以精確匹配這樣的字串由兩個字元組成，前乙...

正規表示式入門

正規表示式 正則入門

正規表示式入門

正規表示式入門

相關推薦

正規表示式正則入門