目錄
每天的排行版通過靜態頁面發布,先獲取每天的排行榜鏈結,再進一步從鏈結裡面獲取資料
每天前10的資訊發布在p標籤內,儲存的時候空格拆分一下
獲取每一頁的靜態鏈結
url = '/page/'
# 獲取每乙個網頁的靜態頁面
for i in range(1, 100):
href = {}
print('正在爬取第' + str(i) + '頁')
print(url + str(i))
doc = pq(url + str(i))
sp = doc('.status-publish')
for s in sp.items():
ha = s.find('h2 a')
href[ha.attr('title')] = ha.attr('href')
with open('tv鏈結列表.csv', 'a') as f:
for key in href.keys():
if key.find('榜') > 0:
f.write(key + ',' + href[key] + '\n')
從每天的靜態頁面中獲取前十的資料
# 從每乙個靜態頁面中獲取資料
out = open('tv收視率.csv', 'w', encoding='utf-8')
with open('tv鏈結列表.csv', 'r') as f:
for line in f:
print(line)
strs = line.split(',')
out.write(strs[0])
doc = pq(strs[1])
p = doc.find('p:nth-child(1)').text().strip()
ps = p.split(' ')
count = 0
for item in ps:
count = count + 1
if count <= 3:
continue
j = 0
while '0' <= item[j] <= '9':
j = j + 1
out.write(',' + item[j:])
out.write('\n')
執行結果
完整**獲取: 感覺有幫助的話可以github點個贊哦
requests lxml xpath爬取電影天堂
1.匯入相應的包 import requests from lxml import etree 2.原始ur 我們要爬取的是最新電影,在該介面中,我們發現,具體的資訊儲存在每個名字的鏈結中,因此我們要獲取所有電影的鏈結才能得到電影的資訊。同時我們觀察url,發現 list 23 1,最後的1是頁面位...
Python爬取藍橋杯真題講解課程
環境配置 這次我們用re requests urllib這三個庫來提取。構造請求頭 我們需要安裝chrome瀏覽器,進入瀏覽器 ctrl shift i 呼出開發者工具。接著開啟 後面 會用到。請求訪問網頁 def get html url headers response requests.get...
2020深圳杯數學建模C題
絡正常工作有著重要意義。本文建立了基於經典 tsp 問題的動態規劃模型。針對問題二,在問題一中規劃的路線中,分析在什麼樣的約束條件下,網路才能長久執行而不死亡,根據位置 時間等因素對能量的影響建立了約束方程組,將充電過程 劃分為初始充電週期和一般充電週期,在一般充電週期中,根據約束方程組,對於目標 ...