爬蟲爬評書吧

執行環境：windows7，python3.7

操作步驟：

1.開啟選好的評書主頁面(並調出chrome控制台，找到目錄列表對應的元素。

2.點開具體回目，篩選具體的音訊鏈結。

單田芳/單田芳_破曉記(37回)/001_a.***

利用相同的原理，再點幾個頁面，我們可以找到乙個規律，這個評書的音訊鏈結命名規則是【單田芳/單田芳_破曉記(37回)/】+【章節的對應元素**】。

因此只需要爬取主頁面目錄的元素即可。

**如下：

from lxml importetreeimportrequests

headers=

url=''html=etree.html(requests.get(url,headers=headers).content)

results=html.xpath('//ul/li/a/@title') #音訊鏈結

resultst=html.xpath('//ul/li/a/text()') #章節名字

for i inrange(len(results)):

results[i]='單田芳/單田芳_破曉記(37回)/'+results[i]

resultst[i]=resultst[i].replace('\xa0','')

with open('g:\dota\pingshu2\{}.***'.format(resultst[i][1:-1]),'wb') as f:

print(resultst[i][1:-1])print('爬取完成！')

爬蟲爬取百度貼吧 python

本爬蟲是在pycharm中編寫完成，伺服器環境是ubuntu16.04，使用語言是python3，匯入的模組包是requests模組匯入模組 import requests class tiebaspider object def init self self.base url self.head...

python爬蟲實現貼吧表情包的爬取

本文利用urllib在python3.7的環境下實現貼吧表情包的爬取！用到的包有urllib與re兩個模組，具體實現如下！file 相對路徑 s temp jpg 所以必須在上中宣告，另外還有一種宣告方式，如下 context ssl.create unverified context res r...

利用爬蟲爬取百度貼吧內容

coding utf 8 識別中文注釋的意思 import urllib.request 匯入urllib包中的request模組，主要是獲取網頁內容 def load page url 傳送url請求返回url請求的靜態html頁面 user agent mozilla 5.0 windows ...

爬蟲爬評書吧

爬蟲爬取百度貼吧 python

python爬蟲實現貼吧表情包的爬取

利用爬蟲爬取百度貼吧內容

相關推薦