Python正規表示式

正規表示式是一種用來匹配字串的強有力的**。它的設計思想是用一種描述性的語言來給字串定義乙個規則，凡是符合規則的字串，我們就認為它「匹配」了，否則，該字串就是不合法的。

在正規表示式中，如果直接給出字元，就是精確匹配。用\d可以匹配乙個數字，\w可以匹配乙個字母或數字，所以：

要匹配變長的字元，在正規表示式中，用*表示任意個字元（包括0個），用+表示至少乙個字元，用?表示0個或1個字元，用表示n個字元，用表示n-m個字元，乙個例子：\d\s+\d

1.\d表示匹配3個數字，例如』010』；

2.\s可以匹配乙個空格（也包括tab等空白符），所以\s+表示至少有乙個空格；

3.\d表示3-8個數字，例如'1234567'。

合起來，上面的正規表示式可以匹配以任意個空格隔開的帶區號的**號碼。

python提供re模組，包含所有正規表示式的功能。

先看看如何判斷正規表示式是否匹配：

>>
>
import re
>>
> re.match(r'^\d\-\d$'
,'010-12345'
)<_sre.sre_match object
; span=(0
,9), match=
'010-12345'
>
>>
> re.match(r'^\d\-\d$'
,'010 12345'
)>>
>

match()方法判斷是否匹配，如果匹配成功，返回乙個match物件，否則返回none。常見的判斷方法就是：

test =
'使用者輸入的字串'
if re.match(r'正規表示式'
, test)
:print
('ok'
)else
:print
('failed'
)

正規表示式切分字串比用固定的字元更靈活，正常的切分**：

>>
>
'a b   c'
.split(
' ')
['a'
,'b',''
,'','c'
]

用正規表示式：

>>
> re.split(r'\s+'
,'a b   c')[
'a',
'b',
'c']

加入,:

>>
> re.split(r'[\s\,]+'
,'a,b, c  d')[
'a',
'b',
'c',
'd']

除了簡單地判斷是否匹配之外，正規表示式還有提取子串的強大功能。用()表示的就是要提取的分組（group）。比如：^(\d)-(\d)$分別定義了兩個組，可以直接從匹配的字串中提取出區號和本地號碼：

>>
> m = re.match(r'^(\d)-(\d)$'
,'010-12345'
)>>
> m
<_sre.sre_match object
; span=(0
,9), match=
'010-12345'
>
>>
> m.group(0)
'010-12345'
>>
> m.group(1)
'010'
>>
> m.group(2)
'12345'

group(0)永遠是原始字串，group(1)、group(2)……表示第1、2、……個子串。

正則匹配預設是貪婪匹配，也就是匹配盡可能多的字元，如匹配出數字後面的連續0：

>>
> re.match(r'^(\d+)(0*)$'
,'102300'
).groups()(
'102300',''
)

由於\d+採用貪婪匹配，直接把後面的0全部匹配了，結果0*只能匹配空字串了。必須讓\d+採用非貪婪匹配（也就是盡可能少匹配），才能把後面的0匹配出來，加個?就可以讓\d+採用非貪婪匹配：

>>
> re.match(r'^(\d+?)(0*)$'
,'102300'
).groups()(
'1023'
,'00'
)

在python中使用正規表示式時，re模組內部會幹兩件事情：

編譯正規表示式，如果正規表示式的字串本身不合法，會報錯；

用編譯後的正規表示式去匹配字串。

如果乙個正規表示式要重複使用幾千次，出於效率的考慮，我們可以預編譯該正規表示式，接下來重複使用時就不需要編譯這個步驟了，直接匹配：如果乙個正規表示式要重複使用，我們可以預編譯該正規表示式，接下來重複使用時就不需要編譯這個步驟了，直接匹配：

>>
>
import re
# 編譯:
>>
> re_telephone = re.
compile
(r'^(\d)-(\d)$'
)# 使用：
>>
> re_telephone.match(
'010-12345'
).groups()(
'010'
,'12345'
)>>
> re_telephone.match(
'010-8086'
).groups()(
'010'
,'8086'
)

Python正規表示式

python正規表示式元字元正規表示式

Python 正規表示式

Python正規表示式

Python正規表示式

python正規表示式元字元 正規表示式

Python 正規表示式

Python正規表示式

相關推薦

python正規表示式元字元正規表示式