爬蟲之re塊解析

2022-05-30 08:57:10 字數 1314 閱讀 5086

這個去匹配比較麻煩,以後也比較少用,簡單看乙個案例就行

'''

爬取資料流程:

1.指定url

2.發起請求

3.獲取頁面資料

4.資料解析

5.持久化儲存

'''import

requests

import

reimport

osheaders =

url = '

'#獲取一整張頁面資料原始碼

page_text = requests.get(url=url,headers=headers).text

#解析資料(將所有的鏈結獲取)

.*?img_url_list = re.findall(ex,page_text,re.s)#re.s單

行匹配for url in

在正規表示式中盡量使用原始字串,在待匹配字元中看到什麼就在正規表示式中寫什麼,不容易出問題

原始字串的檢視,可以借助ipython去檢視,不要使用print

re.findall('

a(.*?)b

','str

')能返額回括號中的內容,括號前後的內容能起到乙個定位的效果

原始字串,待匹配字串出現反斜槓的時候,可以使用r來忽略反斜槓帶來的轉義效果

點號預設匹配不到'\n'

'/s'能匹配空白字元,不僅僅包括空格,還有'/t|\r\n'

爬蟲 之 re庫

a表示正則的規則,b表示字串 從開頭開始匹配,若開頭就匹配失敗,則返回為none result re.match a b result.group 若a 的規則中有用 小括號 圈起來東西,可以按順序由 result.group 1 result.group 2 等匹配得到 掃瞄整個字串,返回第乙個成...

網路爬蟲之網頁資料解析(正則re)

正規表示式測試 title u 你好,hello,世界,天安門,願望 pattern re.compile u u4e00 u9fa5 result pattern.findall title print result 貪婪模式與非貪婪模式import re str aatest1 bbtest2 ...

python爬蟲之re模組

傳送門python爬蟲之正規表示式 match 從開始的位置進行匹配。如果開始的位置沒有匹配到。就直接失敗了。text hello ret re.match h text print ret.group 在字串中找到第乙個滿足條件的。text hello ret re.search e text p...