- re.i # 忽略大小寫
- rtuhsgqe.m # 多行匹配,將正則作用到源資料的每一行
- re.s # 單行匹配,將正則作用到整個源資料,輸出乙個整體字串(包括換行符也列印)
string = '''fall in love with you
i love you very much
i love she
i love her'''
# 去除以i開頭的每一行資料
re.findall('^i.*',string,re.m)
['i love you very much', 'i love she', 'i love her']
#匹配全部行
string1 = """細思極恐
你的隊友在看書
你的敵人在磨刀
你的閨蜜在**
隔壁老王在練腰
"""re.findall('.*',string1,re.s)
['細思極恐\n你的隊友在看書\n你的敵人在磨刀\n你的閨蜜在**\n隔壁老王在練腰\n', '']
爬取糗事百科中所有的進行儲存
import requests
import re
import urllib
import os
url = ''
# 自定義請求頭資訊
headers =
# 判斷是否存在名為qiutu的資料夾,如果不存在則建立資料夾
if not os.path.exists('./qiutu'):
os.mkdir('./qiutu')
# 手動輸入開始頁,結束頁
start_page = int(input('start>>>'))
end_page = int(input('end>>>'))
for page in range(start_page,end_page+1):
# 按照每頁url形式拼接指定url
new_url = format(url%page)
# 發起請求
page程式設計客棧_text = requests.get(url=new_url,headers=headers).text
# 使用正則找出page_text頁面中所有url
img_url_list = re.findall('.*?# 對做持久化儲存
urllib.request.urlretrieve(url=img_url,filename=img_path)
print(img_path,'**成功')
print('over')
本文標題: python爬蟲 正規表示式解析
本文位址:
">
python爬蟲 正規表示式
正規表示式是十分高效而優美的匹配字串工具,一定要好好掌握。利用正規表示式可以輕易地從返回的頁面中提取出我們想要的內容。1 貪婪模式與非貪婪模式 python預設是貪婪模式。貪婪模式,總是嘗試匹配盡可能多的字元 非貪婪模式,總是嘗試盡可能少的字元。一般採用非貪婪模式來提取。2 反斜槓問題 正規表示式裡...
Python爬蟲 正規表示式
一般的正規表示式都可直接到正則生成工具處生成,常見匹配字元 re.match及其常規匹配 re.match 嘗試從字串的起始位置匹配乙個模式,如果不是起始位置匹配成功的話,match 就返回none。re.match pattern,string,flags 0 返回的為乙個物件,其中span代表長...
Python 爬蟲 正規表示式
常見的正則字元和含義如下 匹配任意字元,除了換行符 匹配字串開頭 匹配字串末尾 匹配括號內表示式,也表示乙個組 s 匹配空白字元 s 匹配任何非空白字元 d 匹配數字,等價於 0 9 d 匹配任何非數字,等價於 0 9 w 匹配字母數字,等價於 a za z0 9 w 匹配非字母數字,等價於 a z...