爬取喜馬拉雅三國中的前十章音訊:
#匯入requests模組
import requests
#匯入正規表示式
import re
#解決反爬問題,匯入ua
header =
#網頁源**中獲取的前十章id
sound_ids = (
64686514,
64689648,
64695831,
64695832,
3218935,
3822581,
3419626,
3513844,
3593277,
3773655)
for s
inrange(
0,10):
for i
in sound_ids:
# 每個音訊的url
url =
''+str(sound_ids[s])+
'.json'
#網頁源**
html = requests.get(url,
headers=header)
#列印網頁源**
# print(html.text)
defget_find_url():
#正則匹配id和對應的url
reg =
'"id":(.*?),"play_path_64":"(.*?)"'
#最終的音訊url數列
sound_url = re.findall(reg,html.text)
#列印音訊url數列
# print(sound_url)
return sound_url
#id和音訊url單獨取出來
forid,url_finall
in get_find_url():
#列印最終音訊url
#print('第',s+1,'節:',url1)
#獲取音訊詳細內容
m4a = requests.get(url_finall)
#取音訊最後4位數,即就是.m4a作為字尾名
m4a_name = url_finall[-
4:]print(
1,'節》 ',url_finall)
#音訊內容儲存到本地
with
open(
'第'+
str(s+
1)+'節'+m4a_name,
'wb')
as f:
f.write(m4a.content)
喜馬拉雅 音訊爬取
import requests import parsel headers 介面的 url 每一集 都有相對應的 id 的引數值 def down mp4 player,mp4 name resp requests.get player,headers headers path r c users ...
Python爬蟲 爬取喜馬拉雅音訊資料詳解
喜馬拉雅是專業的音訊分享平台,匯集了有聲 有聲讀物,有聲書,fm電台,兒童睡前故事,相聲小品,鬼故事等數億條音訊,我最喜歡聽民間故事和德雲社相聲集,你呢?今天帶大家爬取喜馬拉雅音訊資料,一起期待吧!爬取喜馬拉雅音訊資料 受害者位址 環境 案例思路 先導入所需的模組 import requests i...
Python爬蟲實戰案例之爬取喜馬拉雅音訊資料詳解
前言 喜馬拉雅是專業的音訊分享平台,匯集了有聲 有聲讀物,有聲書,fm電台,兒童睡前故事,相聲小品,鬼故事等數億條音訊,我最喜歡聽民間故事和德雲社相聲集,你呢?今天帶大家爬取喜馬拉雅音訊資料,一起期待吧!這個案例的 位址在這裡 專案目標 爬取喜馬拉雅音訊資料 受害者位址 本文知識點 1 系統分析網頁...