爬蟲學習系列（五）資料解析

聚焦爬蟲：

流程：–指定url

– 發起請求

– 獲取相應資料

– 資料解析

– 持久化儲存

資料解析原理：

– 解析的區域性文字內容都會在標籤之間或標籤對應的屬性中進行儲存

– 進行指定標籤的定位

–標籤或者標籤對應的屬性中儲存的資料進行提取（解析）

糗事百科的爬取 ----爬取

#   糗事百科的爬取  ----爬取
import requests
url = ''
#  content 返回的是二進位制形式的資料
# text（字串）  content（二進位制）  json（）（物件型別）
#建立乙個資料夾 儲存所有
if not os.path.exists('./qiutulibs'):
os.mkdir('./qiutulibs')
url = ''
# ua偽裝
headers = 
# 使用通用爬蟲對url對應的一整張頁面進行爬取
page_text = requests.get(url=url,headers=headers).text
# 使用聚焦爬蟲 對所有的解析
ex = '.*?
img_src_list = re.findall(ex,page_text,re.s)
print(img_src_list)
for src in img_src_list:
#拼接乙個完整的url
#請求到的二進位制資料
img_data = requests.get(url=src,headers=headers).content
# 生成名稱
img_name = src.split('/')[-1]
# 儲存路徑
imgpath = './qiutulibs/'+img_name
with open(imgpath,'wb') as fp:
fp.write(img_data)

爬蟲資料解析

1 今日學習提綱聚焦爬蟲正則 bs4 xpath 2 聚焦爬蟲爬取頁面中指定的頁面內容編碼流程指定url 發起請求獲取響應資料資料解析持久化儲存 3 資料解析分類正則 bs4 xpath 通用性最強 4 資料解析原理概述解析的區域性的文字內容都會在標籤之間或標籤對應的屬性中進行儲...

python爬蟲學習（五）

目標破解有道翻譯介面，抓取翻譯結果結果展示請輸入要翻譯的詞語 elephant 翻譯結果大象請輸入要翻譯的詞語喵喵叫翻譯結果 mews實現步驟 1 瀏覽器f12開啟網路抓包,network all,頁面翻譯單詞後找form表單資料 2 在頁面中多翻譯幾個單詞，觀察form表單資料變化 ...

python爬蟲資料解析

解析的區域性的文字內容都會在標籤之間或者標籤對應的屬性中進行儲存使用正規表示式，利用字串匹配篩選出所需要的內容例 ex re是python中使用正規表示式的庫 page text是爬取到頁面的原始碼使用上面定義的正則匹配規則進行解析，得到的url img src list re.findall...

爬蟲學習系列（五） 資料解析

爬蟲資料解析

python爬蟲學習（五）

python爬蟲 資料解析

相關推薦

爬蟲學習系列（五）資料解析

python爬蟲資料解析