python爬蟲 正規表示式解析

2022-10-06 03:00:09 字數 1345 閱讀 7563

- re.i # 忽略大小寫

- rtuhsgqe.m # 多行匹配,將正則作用到源資料的每一行

- re.s # 單行匹配,將正則作用到整個源資料,輸出乙個整體字串(包括換行符也列印)

string = '''fall in love with you

i love you very much

i love she

i love her'''

# 去除以i開頭的每一行資料

re.findall('^i.*',string,re.m)

['i love you very much', 'i love she', 'i love her']

#匹配全部行

string1 = """細思極恐

你的隊友在看書

你的敵人在磨刀

你的閨蜜在**

隔壁老王在練腰

"""re.findall('.*',string1,re.s)

['細思極恐\n你的隊友在看書\n你的敵人在磨刀\n你的閨蜜在**\n隔壁老王在練腰\n', '']

爬取糗事百科中所有的進行儲存

import requests

import re

import urllib

import os

url = ''

# 自定義請求頭資訊

headers =

# 判斷是否存在名為qiutu的資料夾,如果不存在則建立資料夾

if not os.path.exists('./qiutu'):

os.mkdir('./qiutu')

# 手動輸入開始頁,結束頁

start_page = int(input('start>>>'))

end_page = int(input('end>>>'))

for page in range(start_page,end_page+1):

# 按照每頁url形式拼接指定url

new_url = format(url%page)

# 發起請求

page程式設計客棧_text = requests.get(url=new_url,headers=headers).text

# 使用正則找出page_text頁面中所有url

img_url_list = re.findall('.*?# 對做持久化儲存

urllib.request.urlretrieve(url=img_url,filename=img_path)

print(img_path,'**成功')

print('over')

本文標題: python爬蟲 正規表示式解析

本文位址:

">

python爬蟲 正規表示式

正規表示式是十分高效而優美的匹配字串工具,一定要好好掌握。利用正規表示式可以輕易地從返回的頁面中提取出我們想要的內容。1 貪婪模式與非貪婪模式 python預設是貪婪模式。貪婪模式,總是嘗試匹配盡可能多的字元 非貪婪模式,總是嘗試盡可能少的字元。一般採用非貪婪模式來提取。2 反斜槓問題 正規表示式裡...

Python爬蟲 正規表示式

一般的正規表示式都可直接到正則生成工具處生成,常見匹配字元 re.match及其常規匹配 re.match 嘗試從字串的起始位置匹配乙個模式,如果不是起始位置匹配成功的話,match 就返回none。re.match pattern,string,flags 0 返回的為乙個物件,其中span代表長...

Python 爬蟲 正規表示式

常見的正則字元和含義如下 匹配任意字元,除了換行符 匹配字串開頭 匹配字串末尾 匹配括號內表示式,也表示乙個組 s 匹配空白字元 s 匹配任何非空白字元 d 匹配數字,等價於 0 9 d 匹配任何非數字,等價於 0 9 w 匹配字母數字,等價於 a za z0 9 w 匹配非字母數字,等價於 a z...