執行環境:windows7,python3.7
操作步驟:
1.開啟選好的評書主頁面(並調出chrome控制台,找到目錄列表對應的元素。
2.點開具體回目,篩選具體的音訊鏈結。
單田芳/單田芳_破曉記(37回)/001_a.***
利用相同的原理,再點幾個頁面,我們可以找到乙個規律,這個評書的音訊鏈結命名規則是【單田芳/單田芳_破曉記(37回)/】+【章節的對應元素**】。
因此只需要爬取主頁面目錄的元素即可。
**如下:
from lxml importetreeimportrequests
headers=
url=''html=etree.html(requests.get(url,headers=headers).content)
results=html.xpath('//ul/li/a/@title') #音訊鏈結
resultst=html.xpath('//ul/li/a/text()') #章節名字
for i inrange(len(results)):
results[i]='單田芳/單田芳_破曉記(37回)/'+results[i]
resultst[i]=resultst[i].replace('\xa0','')
with open('g:\dota\pingshu2\{}.***'.format(resultst[i][1:-1]),'wb') as f:
print(resultst[i][1:-1])print('爬取完成!')
爬蟲爬取百度貼吧 python
本爬蟲是在pycharm中編寫完成,伺服器環境是ubuntu16.04,使用語言是python3,匯入的模組包是requests模組 匯入模組 import requests class tiebaspider object def init self self.base url self.head...
python爬蟲實現貼吧表情包的爬取
本文利用urllib在python3.7的環境下實現貼吧表情包的爬取!用到的包有urllib與re兩個模組,具體實現如下!file 相對路徑 s temp jpg 所以必須在 上中宣告,另外還有一種宣告方式,如下 context ssl.create unverified context res r...
利用爬蟲爬取百度貼吧內容
coding utf 8 識別中文注釋的意思 import urllib.request 匯入urllib包中的request模組,主要是獲取網頁內容 def load page url 傳送url請求 返回url請求的靜態html頁面 user agent mozilla 5.0 windows ...