Python爬蟲 正規表示式基礎(超基礎!!)

2021-10-01 10:36:56 字數 1313 閱讀 8769

之前學正則時寫的小筆記,今天想起來發一發

補充:\d+:用於匹配字串中的純數字

————————————————————

1.關於星號的詳解:進入

(這是自己遇到的坑,感覺個帖子還是很好的)

——————————————————————

2. 貪心演算法和非貪心演算法的區別:

貪心演算法將會找到最開始和最末尾的xx,匹配最長的字串

非貪心則會找最短的

但注意:一組xx不會被重複利用(即,不會又當作開頭又當作末尾。其他匹配符號亦是如此)

——————————————————————

3.點(.)不能匹配換行符,即換行符將會截斷當前正規表示式的匹配工作,並從新一行重新開始。(若想要可以匹配新的一行,則需要加上引數:「正規表示式」,目標字串 .re . s

1.compile:寫乙個規律,並賦值給乙個變數。當呼叫findall或者其他函式時直接:

findall(規律,目標字串)

2.match:將會匹配乙個字串的開頭是否符合所寫的正規表示式,若不符合則返回none。

從區別中我們可以注意到,返回資料型別的不同,經過測試:

即便findall匹配的字串不加括號告訴python你想要什麼,它就會自動返回所匹配的字串。

而其他如果不用括號括起來,那python只是匹配到 有 符合此規律的字串,但不會返回。

看圖

當我們需要已提取字串中的某一段內容時,我們可以在寫正規表示式時加上小括號來標明我們需要哪部分的內容。例如:

sub的語法:re.sub(「正規表示式「,」要替換成的字串「,目標字串)

python爬蟲 正規表示式

正規表示式是十分高效而優美的匹配字串工具,一定要好好掌握。利用正規表示式可以輕易地從返回的頁面中提取出我們想要的內容。1 貪婪模式與非貪婪模式 python預設是貪婪模式。貪婪模式,總是嘗試匹配盡可能多的字元 非貪婪模式,總是嘗試盡可能少的字元。一般採用非貪婪模式來提取。2 反斜槓問題 正規表示式裡...

Python爬蟲 正規表示式

一般的正規表示式都可直接到正則生成工具處生成,常見匹配字元 re.match及其常規匹配 re.match 嘗試從字串的起始位置匹配乙個模式,如果不是起始位置匹配成功的話,match 就返回none。re.match pattern,string,flags 0 返回的為乙個物件,其中span代表長...

Python 爬蟲 正規表示式

常見的正則字元和含義如下 匹配任意字元,除了換行符 匹配字串開頭 匹配字串末尾 匹配括號內表示式,也表示乙個組 s 匹配空白字元 s 匹配任何非空白字元 d 匹配數字,等價於 0 9 d 匹配任何非數字,等價於 0 9 w 匹配字母數字,等價於 a za z0 9 w 匹配非字母數字,等價於 a z...