python爬蟲資料解析（正則）

正則解析案例–爬取糗事百科的

糗事百科url

檢視網頁源**，發現儲存的位址
import requests
import re
import os
if __name__ ==
'__main__'
:    headers =
#判斷是否存在qiushi資料夾，如果不存在就建立乙個
ifnot os.path.exists(
'./qiushi'):
os.mkdir(
'./qiushi'
)        
url =
''for pagenum in
range(1
,3):
new_url =
format
(url%pagenum)
#通用爬蟲請求頁面資料
gate_text = requests.get(url=new_url,headers=headers)
.text
ex =
'.*?
#正則匹配，匹配出位址
ex_data = re.findall(ex,gate_text,re.s)
for src in ex_data:
#拼接出完整的url
#請求二進位制資料
img_data = requests.get(url=src,headers=headers)
.content
img_name = src.split(
'/')[-
1]img_path =
'./qiushi/'
+ img_name
#建立並寫入二進位制資料
with
open
(img_path,
'wb'
)as fp:
fp.write(img_data)
print
(img_name,
'success!!'
)
爬取結果

練習

)結果

python爬蟲正則解析方式
提取資料步驟建立正則物件匹配查詢提取資料儲存知識點 1.單字元除換行以外所有字元 aoe a w 匹配集合中任意乙個字元 d 數字 0 9 d 非數字 w 數字字母下劃線中文 w 非 w s 所有的空白字元包,括空格製表符換頁符等等。等價於 f n r t v s 非空白 2.數...

python爬蟲資料解析
解析的區域性的文字內容都會在標籤之間或者標籤對應的屬性中進行儲存使用正規表示式，利用字串匹配篩選出所需要的內容例 ex re是python中使用正規表示式的庫 page text是爬取到頁面的原始碼使用上面定義的正則匹配規則進行解析，得到的url img src list re.findall...

Python 爬蟲資料解析回顧
定位標籤提取標籤中儲存的資料例項化乙個etree的物件且將解析的頁面原始碼資料載入到該物件中通過xpath方法返回值列表結合者xpath表示式進行資料解析 tagname tagname attr value tagname index text text attrname 例項化乙個b...

python爬蟲 資料解析（正則）

python爬蟲 正則解析方式

python爬蟲 資料解析

Python 爬蟲 資料解析回顧

相關推薦

python爬蟲資料解析（正則）

python爬蟲正則解析方式

python爬蟲資料解析

Python 爬蟲資料解析回顧