記錄利用re查詢元素的常用方法。
^
[a-z a-z]
+$ 由字母組成^[
0-9]
+$ 由數字組成
^-?\d+$ 整數
[\u4e00-\u9fa] 中文字元(25
[0-5
])|(
2[0-
4]\d)|(
1\d)|(
[1-9
]?\d)0~
255,由大到小分段
re.search(pattern,string,flags=0)
#返回第乙個查詢結果(match物件)
re.match(pattern,string,flags=0)
#從頭匹配,返回第乙個查詢結果(match物件)
re.findall(pattern,string,flags=0)
#以列表型別返回全部結果
re.split(pattern,string,maxsplit,flags=0)
#分隔,返回列表
re.finditer(pattern,string,flags=0)
#返回迭代的match物件
re.sub(pattern,repl,string,count=
0,flags=0)
#替換,返回替換後的字串
#pattern:正規表示式,r"text"
#string:待匹配字串
#flag:re.i忽略大小寫,re.m:把^當作匹配開始,re.s:操作符能匹配所有字元。
#maxsplit:最大分隔數,其餘按乙個返回
#repl:替換的字串,count:替換次數
使用方法
一次操作:
rst=re.search(..
.)多次操作:
pat=re.
compile
(pattern,flags)
rst=pat.search(..
.)
屬性:
re.findall(r"語言.+"
,r.text)
>>
>
['語言程式設計
\r']
re.search(r"lang=..-.."
,r.text)
.group(0)
>>
>
'lang=zh-cn'
print
(re.match(r"lang=..-.."
,r.text)
)>>
>
none
使用re查詢元素可以簡單快速地查詢特徵元素,但當元素的特徵性不強時,查詢的效果較差,需要配合其他查詢方式使用。 python爬蟲之re模組
傳送門python爬蟲之正規表示式 match 從開始的位置進行匹配。如果開始的位置沒有匹配到。就直接失敗了。text hello ret re.match h text print ret.group 在字串中找到第乙個滿足條件的。text hello ret re.search e text p...
爬蟲 之 re庫
a表示正則的規則,b表示字串 從開頭開始匹配,若開頭就匹配失敗,則返回為none result re.match a b result.group 若a 的規則中有用 小括號 圈起來東西,可以按順序由 result.group 1 result.group 2 等匹配得到 掃瞄整個字串,返回第乙個成...
爬蟲之re塊解析
這個去匹配比較麻煩,以後也比較少用,簡單看乙個案例就行 爬取資料流程 1.指定url 2.發起請求 3.獲取頁面資料 4.資料解析 5.持久化儲存 import requests import reimport osheaders url 獲取一整張頁面資料原始碼 page text request...