Python爬蟲 喜馬拉雅音訊爬取

2021-08-16 17:24:35 字數 1288 閱讀 1236

爬取喜馬拉雅三國中的前十章音訊:

#匯入requests模組

import requests

#匯入正規表示式

import re

#解決反爬問題,匯入ua

header =

#網頁源**中獲取的前十章id

sound_ids = (

64686514,

64689648,

64695831,

64695832,

3218935,

3822581,

3419626,

3513844,

3593277,

3773655)

for s

inrange(

0,10):

for i

in sound_ids:

# 每個音訊的url

url =

''+str(sound_ids[s])+

'.json'

#網頁源**

html = requests.get(url,

headers=header)

#列印網頁源**

# print(html.text)

defget_find_url():

#正則匹配id和對應的url

reg =

'"id":(.*?),"play_path_64":"(.*?)"'

#最終的音訊url數列

sound_url = re.findall(reg,html.text)

#列印音訊url數列

# print(sound_url)

return sound_url

#id和音訊url單獨取出來

forid,url_finall

in get_find_url():

#列印最終音訊url

#print('第',s+1,'節:',url1)

#獲取音訊詳細內容

m4a = requests.get(url_finall)

#取音訊最後4位數,即就是.m4a作為字尾名

m4a_name = url_finall[-

4:]print(

1,'節》 ',url_finall)

#音訊內容儲存到本地

with

open(

'第'+

str(s+

1)+'節'+m4a_name,

'wb')

as f:

f.write(m4a.content)

喜馬拉雅 音訊爬取

import requests import parsel headers 介面的 url 每一集 都有相對應的 id 的引數值 def down mp4 player,mp4 name resp requests.get player,headers headers path r c users ...

Python爬蟲 爬取喜馬拉雅音訊資料詳解

喜馬拉雅是專業的音訊分享平台,匯集了有聲 有聲讀物,有聲書,fm電台,兒童睡前故事,相聲小品,鬼故事等數億條音訊,我最喜歡聽民間故事和德雲社相聲集,你呢?今天帶大家爬取喜馬拉雅音訊資料,一起期待吧!爬取喜馬拉雅音訊資料 受害者位址 環境 案例思路 先導入所需的模組 import requests i...

Python爬蟲實戰案例之爬取喜馬拉雅音訊資料詳解

前言 喜馬拉雅是專業的音訊分享平台,匯集了有聲 有聲讀物,有聲書,fm電台,兒童睡前故事,相聲小品,鬼故事等數億條音訊,我最喜歡聽民間故事和德雲社相聲集,你呢?今天帶大家爬取喜馬拉雅音訊資料,一起期待吧!這個案例的 位址在這裡 專案目標 爬取喜馬拉雅音訊資料 受害者位址 本文知識點 1 系統分析網頁...