python 爬蟲 使用正規表示式獲取文字

2021-08-28 22:12:40 字數 587 閱讀 5124

#正規表示式獲取文字的規則與用法

import re

#編輯乙個規則

reg = re.compile('is')

#要使用規則進行提取的文字

str1 = 'he is jack'

#檢測str1內有沒有is

result = re.search(reg,str1)

print(result)

#findall()返回結果,列表形式

print(re.findall(reg,str1))

#貪婪模式,它會將所有符合條件的都包含進去直到最後乙個

reg2=re.compile('a\w*b')

str2='a123b456b789b'

result=re.findall(reg2,str2)

print(result)

#非貪婪模式

reg3=re.compile('a\w*?b')

result2=re.findall(reg3,str2)

print(result2)

python爬蟲 正規表示式

正規表示式是十分高效而優美的匹配字串工具,一定要好好掌握。利用正規表示式可以輕易地從返回的頁面中提取出我們想要的內容。1 貪婪模式與非貪婪模式 python預設是貪婪模式。貪婪模式,總是嘗試匹配盡可能多的字元 非貪婪模式,總是嘗試盡可能少的字元。一般採用非貪婪模式來提取。2 反斜槓問題 正規表示式裡...

Python爬蟲 正規表示式

一般的正規表示式都可直接到正則生成工具處生成,常見匹配字元 re.match及其常規匹配 re.match 嘗試從字串的起始位置匹配乙個模式,如果不是起始位置匹配成功的話,match 就返回none。re.match pattern,string,flags 0 返回的為乙個物件,其中span代表長...

Python 爬蟲 正規表示式

常見的正則字元和含義如下 匹配任意字元,除了換行符 匹配字串開頭 匹配字串末尾 匹配括號內表示式,也表示乙個組 s 匹配空白字元 s 匹配任何非空白字元 d 匹配數字,等價於 0 9 d 匹配任何非數字,等價於 0 9 w 匹配字母數字,等價於 a za z0 9 w 匹配非字母數字,等價於 a z...