深圳杯D題爬取電視收視率排行榜

2022-06-28 19:18:10 字數 1245 閱讀 5112

目錄

每天的排行版通過靜態頁面發布,先獲取每天的排行榜鏈結,再進一步從鏈結裡面獲取資料

每天前10的資訊發布在p標籤內,儲存的時候空格拆分一下

獲取每一頁的靜態鏈結

url = '/page/'

# 獲取每乙個網頁的靜態頁面

for i in range(1, 100):

href = {}

print('正在爬取第' + str(i) + '頁')

print(url + str(i))

doc = pq(url + str(i))

sp = doc('.status-publish')

for s in sp.items():

ha = s.find('h2 a')

href[ha.attr('title')] = ha.attr('href')

with open('tv鏈結列表.csv', 'a') as f:

for key in href.keys():

if key.find('榜') > 0:

f.write(key + ',' + href[key] + '\n')

從每天的靜態頁面中獲取前十的資料

# 從每乙個靜態頁面中獲取資料

out = open('tv收視率.csv', 'w', encoding='utf-8')

with open('tv鏈結列表.csv', 'r') as f:

for line in f:

print(line)

strs = line.split(',')

out.write(strs[0])

doc = pq(strs[1])

p = doc.find('p:nth-child(1)').text().strip()

ps = p.split(' ')

count = 0

for item in ps:

count = count + 1

if count <= 3:

continue

j = 0

while '0' <= item[j] <= '9':

j = j + 1

out.write(',' + item[j:])

out.write('\n')

執行結果

完整**獲取: 感覺有幫助的話可以github點個贊哦

requests lxml xpath爬取電影天堂

1.匯入相應的包 import requests from lxml import etree 2.原始ur 我們要爬取的是最新電影,在該介面中,我們發現,具體的資訊儲存在每個名字的鏈結中,因此我們要獲取所有電影的鏈結才能得到電影的資訊。同時我們觀察url,發現 list 23 1,最後的1是頁面位...

Python爬取藍橋杯真題講解課程

環境配置 這次我們用re requests urllib這三個庫來提取。構造請求頭 我們需要安裝chrome瀏覽器,進入瀏覽器 ctrl shift i 呼出開發者工具。接著開啟 後面 會用到。請求訪問網頁 def get html url headers response requests.get...

2020深圳杯數學建模C題

絡正常工作有著重要意義。本文建立了基於經典 tsp 問題的動態規劃模型。針對問題二,在問題一中規劃的路線中,分析在什麼樣的約束條件下,網路才能長久執行而不死亡,根據位置 時間等因素對能量的影響建立了約束方程組,將充電過程 劃分為初始充電週期和一般充電週期,在一般充電週期中,根據約束方程組,對於目標 ...