聚焦爬蟲:
流程:–指定url
– 發起請求
– 獲取相應資料
– 資料解析
– 持久化儲存
資料解析原理:
– 解析的區域性文字內容都會在標籤之間或標籤對應的屬性中進行儲存
– 進行指定標籤的定位
–標籤或者標籤對應的屬性中儲存的資料進行提取(解析)
糗事百科的爬取 ----爬取
# 糗事百科的爬取 ----爬取
import requests
url = ''
# content 返回的是二進位制形式的資料
# text(字串) content(二進位制) json()(物件型別)
#建立乙個資料夾 儲存所有
if not os.path.exists('./qiutulibs'):
os.mkdir('./qiutulibs')
url = ''
# ua偽裝
headers =
# 使用通用爬蟲對url對應的一整張頁面進行爬取
page_text = requests.get(url=url,headers=headers).text
# 使用聚焦爬蟲 對所有的解析
ex = '.*?
img_src_list = re.findall(ex,page_text,re.s)
print(img_src_list)
for src in img_src_list:
#拼接乙個完整的url
#請求到的二進位制資料
img_data = requests.get(url=src,headers=headers).content
# 生成名稱
img_name = src.split('/')[-1]
# 儲存路徑
imgpath = './qiutulibs/'+img_name
with open(imgpath,'wb') as fp:
fp.write(img_data)
爬蟲資料解析
1 今日學習提綱 聚焦爬蟲 正則 bs4 xpath 2 聚焦爬蟲 爬取頁面中指定的頁面內容 編碼流程 指定url 發起請求 獲取響應資料 資料解析 持久化儲存 3 資料解析分類 正則 bs4 xpath 通用性最強 4 資料解析原理概述 解析的區域性的文字內容都會在標籤之間或標籤對應的屬性中進行儲...
python爬蟲學習(五)
目標 破解有道翻譯介面,抓取翻譯結果 結果展示 請輸入要翻譯的詞語 elephant 翻譯結果 大象 請輸入要翻譯的詞語 喵喵叫 翻譯結果 mews實現步驟 1 瀏覽器f12開啟網路抓包,network all,頁面翻譯單詞後找form表單資料 2 在頁面中多翻譯幾個單詞,觀察form表單資料變化 ...
python爬蟲 資料解析
解析的區域性的文字內容都會在標籤之間或者標籤對應的屬性中進行儲存 使用正規表示式,利用字串匹配篩選出所需要的內容 例 ex re是python中使用正規表示式的庫 page text是爬取到頁面的原始碼 使用上面定義的正則匹配規則進行解析,得到的url img src list re.findall...