今年由於疫情原因,考研複試、調劑紛紛推遲,時至5月20日,才開通考研調劑系統
但是調劑資訊量非常大,畢竟中國大學多到數不清,而且一所學校不止一條調劑資訊,可想而知,資訊量有多大。雖然系統有一部分篩選條件,但是這些篩選條件可能依然不能滿足需求,這就需要把所有可能需要的資料爬取下來,進行進一步的篩選。
# 學校列表
school_list = json.loads(resp.text)["data"]["vo_list"]["vos"]
return school_list
all_school_list =
# 專業名稱**
zymc_list = ["數學", "圖論及其應用", "運籌學與控制論", "應用數學", "概率論與數理統計", "計算數學", "幾何與代數", "控制論與智慧型優化", "數理統計", "大資料分析與應用",
"應用統計和資料分析"]
for zymc in zymc_list:
for i in range(20):
# 翻頁
start = str(i * 20) if i > 0 else ""
school_list = find_school(start, zymc)
all_school_list += school_list
if len(school_list) < 20:
break
print(all_school_list)
執行結果:說明:
"qers": "餘額人數",
"fbsjstr": "發布時間",
"hasit": "考生是否已經填報該志願 true 或 false",
"dwmc": "單位名稱",
"yxsmc": "院系所名稱",
"yjfxdm": "研究方向**",
"zymc": "專業名稱",
"zydm": "***碼",
"dwdm": "單位**",
"xxfs": "學習方式",
"sfmzyq": "是否滿足要求,空為滿足要求,非空其內容為不滿足要求原因",
"bz": "調劑特殊要求",
"gxsj": "距離最後更新時間已過xx分鐘",
"yjfxmc": "研究方向名稱",
"zt": "餘額狀態",
"id": "餘額資訊id",
"yxsdm": "院系所**",
"ssdm": "省市**"
[,
... ... ... ...
]
python爬考研 Python爬取考研必備單詞
原博主的 可能因為單詞發音的音訊爬取有問題,導致無法將單詞存入資料庫,不過也非常感謝原博主,我根據原始碼做了一定刪減和更改,下次可能會根據使用者的需求,輸入需求,爬取相應的單詞。主要步驟 1.連線資料庫 2.建立word單詞表 3.獲取網頁主介面html 4.獲取class 課程型別 介面html ...
爬取全國各大院校2019考研調劑資訊
實現 kaoyan.py coding utf 8 from copy import deepcopy import scrapy from scrapy.linkextractors import linkextractor from scrapy.spiders import crawlspid...
python動態爬取知乎 python爬取微博動態
在初學爬蟲的過程中,我們會發現很多 都使用ajax技術動態載入資料,和常規的 不一樣,資料是動態載入的,如果我們使用常規的方法爬取網頁,得到的只是一堆html 沒有任何的資料。比如微博就是如此,我們可以通過下滑來獲取更多的動態。對於這樣的網頁該如何抓取呢?我們以微博使用者動態為例,抓取某名使用者的文...