python3 爬蟲 正規表示式學習

2021-10-25 13:45:19 字數 2471 閱讀 7915

常用匹配規則

#re.match方法 從字串開頭開始匹配,一旦開頭不匹配,就會匹配失敗

import re

content=

"hello 1234567 world_this is a regex demo"

print

(len

(content)

)result = re.match(

'^hello\s(\d+)\sworld'

,content)

print

(result)

print

(result.group())

print

(result.group(1)

)#提取1234567

貪婪與非貪婪模式

.

* 盡可能匹配多的字元

.*? 盡可能匹配少的字元

修飾符

re.search方法

將上述**中的match改為search即可,search(

)方法掃瞄整個字串,返回匹配成功的第乙個結果,用法和match方法一致

re.findall()方法

findall(

)方法找出所有匹配的結果

import re

results = re.findall(

'',content,re.s)

print

(type

(results)

)#型別為列表

for result in results:

print

(result)

#型別為元組

print

(result[0]

,result[..

],result[x]

)

re.sub()方法

# 比replace快了很多

re.compile()方法

#re.compile將正則字串編譯成正規表示式物件

python3爬蟲 正規表示式

正規表示式 首先要匯入re庫 其中常用的函式 compile函式 格式為re.complie pattern flags pattern 乙個字串形式的正規表示式 flags 可選,表示匹配模式,比如忽略大小寫,多行模式等,具體引數為 re.i 忽略大小寫 re.l 表示特殊字符集 w,w,b,b,...

python3正規表示式

正規表示式,又稱規則表示式。英語 regular expression,在 中常簡寫為regex regexp或re 電腦科學的乙個概念。正規表示式通常被用來檢索 替換那些符合某個模式 規則 的文字。正規表示式是對字串操作的一種邏輯公式,就是用事先定義好的一些特定字元 及這些特定字元的組合,組成乙個...

Python3 正規表示式

常用的匹配模式 正規表示式是乙個特殊的字串行,它能幫助你方便的檢查乙個字串是否與某種模式匹配。re 模組使 python 語言擁有全部的正規表示式功能。re.match函式 re.match 嘗試從字串的起始位置匹配乙個模式,如果不是起始位置匹配成功的話,match 就返回none。re.match...