深圳杯D題爬取電視收視率排行榜

每天的排行版通過靜態頁面發布，先獲取每天的排行榜鏈結，再進一步從鏈結裡面獲取資料

每天前10的資訊發布在p標籤內，儲存的時候空格拆分一下

獲取每一頁的靜態鏈結

url = '/page/'
# 獲取每乙個網頁的靜態頁面
for i in range(1, 100):
href = {}
print('正在爬取第' + str(i) + '頁')
print(url + str(i))
doc = pq(url + str(i))
sp = doc('.status-publish')
for s in sp.items():
ha = s.find('h2 a')
href[ha.attr('title')] = ha.attr('href')
with open('tv鏈結列表.csv', 'a') as f:
for key in href.keys():
if key.find('榜') > 0:
f.write(key + ',' + href[key] + '\n')

從每天的靜態頁面中獲取前十的資料

# 從每乙個靜態頁面中獲取資料
out = open('tv收視率.csv', 'w', encoding='utf-8')
with open('tv鏈結列表.csv', 'r') as f:
for line in f:
print(line)
strs = line.split(',')
out.write(strs[0])
doc = pq(strs[1])
p = doc.find('p:nth-child(1)').text().strip()
ps = p.split(' ')
count = 0
for item in ps:
count = count + 1
if count <= 3:
continue
j = 0
while '0' <= item[j] <= '9':
j = j + 1
out.write(',' + item[j:])
out.write('\n')

執行結果

完整**獲取：感覺有幫助的話可以github點個贊哦

requests lxml xpath爬取電影天堂

1.匯入相應的包 import requests from lxml import etree 2.原始ur 我們要爬取的是最新電影，在該介面中，我們發現，具體的資訊儲存在每個名字的鏈結中，因此我們要獲取所有電影的鏈結才能得到電影的資訊。同時我們觀察url，發現 list 23 1，最後的1是頁面位...

Python爬取藍橋杯真題講解課程

環境配置這次我們用re requests urllib這三個庫來提取。構造請求頭我們需要安裝chrome瀏覽器，進入瀏覽器 ctrl shift i 呼出開發者工具。接著開啟後面會用到。請求訪問網頁 def get html url headers response requests.get...

2020深圳杯數學建模C題

絡正常工作有著重要意義。本文建立了基於經典 tsp 問題的動態規劃模型。針對問題二，在問題一中規劃的路線中，分析在什麼樣的約束條件下，網路才能長久執行而不死亡，根據位置時間等因素對能量的影響建立了約束方程組，將充電過程劃分為初始充電週期和一般充電週期，在一般充電週期中，根據約束方程組，對於目標 ...

深圳杯D題爬取電視收視率排行榜

requests lxml xpath爬取電影天堂

Python爬取藍橋杯真題講解課程

2020深圳杯數學建模C題

相關推薦