爬取各個高校自主招生名單

2021-09-12 14:28:34 字數 1527 閱讀 4132

突發奇想,想看看各個高校自主招生的錄取情況

在陽光高考上顯示的名單不利於我們統計分析

不如用python寫個爬蟲來爬取這些資料吧

我們開啟2023年的清華大學自主招生錄取名單

在上面的第二個圖的位址列,我們發現了一些引數

ssdm:省市**

yxdm:院校**(神奇的拼音)

year:年份

type:招生計畫

然後滑鼠右鍵檢視源**

發現名單的資料是用**的形式來存的

那麼我們便可以得到整個解決方案了

用requsets 開啟相關網頁

beautifulsoup來把**資料提取出來

這裡我只貼出部分**

#將某校某年的某省名單存在本地檔案裡

defget_list

(school_code, year, province, file_name)

: res = requests.get(constant.url_root + constant.url_list %

(province, school_code, year)

, headers=constant.headers)

if res.status_code ==

200:

#網頁正常響應

files =

open

(file_name,

"a", encoding=

'utf-8'

)#提取**部分

soup = beautifulsoup(res.text)

tables = soup.findall(

'table'

) tab = tables[0]

first =

true

for tr in tab.findall(

'tr'):

# 表頭不用

if first:

first =

false

continue

i =0for td in tr.findall(

'td'):

i = i +1if

(is_need(i)):

files.write(td.gettext()+

' ')

# print (td.gettext(),end=' ')

files.write(

'\n'

) files.close(

)else

:return

none

從研招網爬取招生目錄

工具 火車採集器 八爪魚 jupyter notebook excel 過程略顯繁瑣,剛入門不了解工具的使用,應該有更好的方法 這裡僅僅提供自己的一種思路,適合程式設計小白 手動收集 第一級 研招網由於是使用表單對資料進行篩選,不同表單查詢出來的資料不一樣,我們不需要所有資料,根據網域名稱規則,選擇...

網路營銷招生方案及河南大學生高校名單

學校網路宣傳任務安排 目的 為了促進學校招生,充分利用好網路資源,做好網路宣傳,提高學校的知名度 美譽度,增加網路流量,進一步提高網路諮詢轉化率。統一格式 各位老師的qq號報上來,數字型號的 建議是小號級別的 學員上網的話,加老師qq,老師建立自己所帶班級的組,例如0621 a 郵件格式 學校 個人...

7 5爬取貓眼Top100電影名單

2018 7 5 20 22 57 正則還是剛看,要多去用正則 正則很強大的東西 usr bin env python coding utf 8 time 2018 7 5 18 08 author truenewbee coding utf 8 爬取貓眼電影 2018 7 5 17 37 30 很...