Python爬蟲筆記之re查詢

2021-10-19 18:48:28 字數 1502 閱讀 8727

記錄利用re查詢元素的常用方法。

^

[a-z a-z]

+$ 由字母組成^[

0-9]

+$ 由數字組成

^-?\d+$ 整數

[\u4e00-\u9fa] 中文字元(25

[0-5

])|(

2[0-

4]\d)|(

1\d)|(

[1-9

]?\d)0~

255,由大到小分段

re.search(pattern,string,flags=0)

#返回第乙個查詢結果(match物件)

re.match(pattern,string,flags=0)

#從頭匹配,返回第乙個查詢結果(match物件)

re.findall(pattern,string,flags=0)

#以列表型別返回全部結果

re.split(pattern,string,maxsplit,flags=0)

#分隔,返回列表

re.finditer(pattern,string,flags=0)

#返回迭代的match物件

re.sub(pattern,repl,string,count=

0,flags=0)

#替換,返回替換後的字串

#pattern:正規表示式,r"text"

#string:待匹配字串

#flag:re.i忽略大小寫,re.m:把^當作匹配開始,re.s:操作符能匹配所有字元。

#maxsplit:最大分隔數,其餘按乙個返回

#repl:替換的字串,count:替換次數

使用方法

一次操作:

rst=re.search(..

.)多次操作:

pat=re.

compile

(pattern,flags)

rst=pat.search(..

.)

屬性:

re.findall(r"語言.+"

,r.text)

>>

>

['語言程式設計

\r']

re.search(r"lang=..-.."

,r.text)

.group(0)

>>

>

'lang=zh-cn'

print

(re.match(r"lang=..-.."

,r.text)

)>>

>

none

使用re查詢元素可以簡單快速地查詢特徵元素,但當元素的特徵性不強時,查詢的效果較差,需要配合其他查詢方式使用。

python爬蟲之re模組

傳送門python爬蟲之正規表示式 match 從開始的位置進行匹配。如果開始的位置沒有匹配到。就直接失敗了。text hello ret re.match h text print ret.group 在字串中找到第乙個滿足條件的。text hello ret re.search e text p...

爬蟲 之 re庫

a表示正則的規則,b表示字串 從開頭開始匹配,若開頭就匹配失敗,則返回為none result re.match a b result.group 若a 的規則中有用 小括號 圈起來東西,可以按順序由 result.group 1 result.group 2 等匹配得到 掃瞄整個字串,返回第乙個成...

爬蟲之re塊解析

這個去匹配比較麻煩,以後也比較少用,簡單看乙個案例就行 爬取資料流程 1.指定url 2.發起請求 3.獲取頁面資料 4.資料解析 5.持久化儲存 import requests import reimport osheaders url 獲取一整張頁面資料原始碼 page text request...