爬蟲爬評書吧

2021-10-17 02:26:35 字數 768 閱讀 4524

執行環境:windows7,python3.7

操作步驟:

1.開啟選好的評書主頁面(並調出chrome控制台,找到目錄列表對應的元素。

2.點開具體回目,篩選具體的音訊鏈結。

單田芳/單田芳_破曉記(37回)/001_a.***

利用相同的原理,再點幾個頁面,我們可以找到乙個規律,這個評書的音訊鏈結命名規則是【單田芳/單田芳_破曉記(37回)/】+【章節的對應元素**】。

因此只需要爬取主頁面目錄的元素即可。

**如下:

from lxml importetreeimportrequests

headers=

url=''html=etree.html(requests.get(url,headers=headers).content)

results=html.xpath('//ul/li/a/@title') #音訊鏈結

resultst=html.xpath('//ul/li/a/text()') #章節名字

for i inrange(len(results)):

results[i]='單田芳/單田芳_破曉記(37回)/'+results[i]

resultst[i]=resultst[i].replace('\xa0','')

with open('g:\dota\pingshu2\{}.***'.format(resultst[i][1:-1]),'wb') as f:

print(resultst[i][1:-1])print('爬取完成!')

爬蟲爬取百度貼吧 python

本爬蟲是在pycharm中編寫完成,伺服器環境是ubuntu16.04,使用語言是python3,匯入的模組包是requests模組 匯入模組 import requests class tiebaspider object def init self self.base url self.head...

python爬蟲實現貼吧表情包的爬取

本文利用urllib在python3.7的環境下實現貼吧表情包的爬取!用到的包有urllib與re兩個模組,具體實現如下!file 相對路徑 s temp jpg 所以必須在 上中宣告,另外還有一種宣告方式,如下 context ssl.create unverified context res r...

利用爬蟲爬取百度貼吧內容

coding utf 8 識別中文注釋的意思 import urllib.request 匯入urllib包中的request模組,主要是獲取網頁內容 def load page url 傳送url請求 返回url請求的靜態html頁面 user agent mozilla 5.0 windows ...