正則解析案例–爬取糗事百科的
糗事百科url檢視網頁源**,發現儲存的位址
爬取結果import requests
import re
import os
if __name__ ==
'__main__'
: headers =
#判斷是否存在qiushi資料夾,如果不存在就建立乙個
ifnot os.path.exists(
'./qiushi'):
os.mkdir(
'./qiushi'
)
url =
''for pagenum in
range(1
,3):
new_url =
format
(url%pagenum)
#通用爬蟲請求頁面資料
gate_text = requests.get(url=new_url,headers=headers)
.text
ex =
'.*?
#正則匹配,匹配出位址
ex_data = re.findall(ex,gate_text,re.s)
for src in ex_data:
#拼接出完整的url
#請求二進位制資料
img_data = requests.get(url=src,headers=headers)
.content
img_name = src.split(
'/')[-
1]img_path =
'./qiushi/'
+ img_name
#建立並寫入二進位制資料
with
open
(img_path,
'wb'
)as fp:
fp.write(img_data)
(img_name,
'success!!'
)
練習
)結果
python爬蟲 正則解析方式
提取資料步驟 建立正則物件 匹配查詢 提取資料儲存 知識點 1.單字元 除換行以外所有字元 aoe a w 匹配集合中任意乙個字元 d 數字 0 9 d 非數字 w 數字 字母 下劃線 中文 w 非 w s 所有的空白字元包,括空格 製表符 換頁符等等。等價於 f n r t v s 非空白 2.數...
python爬蟲 資料解析
解析的區域性的文字內容都會在標籤之間或者標籤對應的屬性中進行儲存 使用正規表示式,利用字串匹配篩選出所需要的內容 例 ex re是python中使用正規表示式的庫 page text是爬取到頁面的原始碼 使用上面定義的正則匹配規則進行解析,得到的url img src list re.findall...
Python 爬蟲 資料解析回顧
定位標籤 提取標籤中儲存的資料 例項化乙個etree的物件且將解析的頁面原始碼資料載入到該物件中 通過xpath方法 返回值 列表 結合者xpath表示式進行資料解析 tagname tagname attr value tagname index text text attrname 例項化乙個b...