import requests
from bs4 import beautifulsoup
alluniv =
# 獲取所要爬取的html文字內容
defgethtmltext
(url)
:try
: r = requests.get(url, timeout=30)
r.raise_for_status(
) return r.text
except
:return
""# 獲取**內容
deffillunivlist
(soup)
: data = soup.find_all(
'tr'
)for tr in data:
ltd = tr.find_all(
'td')if
len(ltd)==0
:continue
singleuniv =
for td in ltd:
# 格式化列印所爬取到的資訊
defprintunivlist
(num)
:print
("^10}^5}^6}^8}"
.format
(chr
(12288),
"排名"
,"學校名稱"
,"省市"
,"總分"
,"指標得分"))
for i in
range
(num)
: u = alluniv[i]
print
("^10}^5}^8.1f}^10}"
.format
(chr
(12288
), u[0]
, u[1]
, u[2]
,eval
(u[3])
, u[4]
))defmain()
: url =
''html = gethtmltext(url)
soup = beautifulsoup(html,
"html.parser"
) fillunivlist(soup)
# 爬取2020軟科中國大學排名情況(前100)
printunivlist(
100)
main(
)
爬取中國大學排名(前567)
import requests from bs4 import beautifulsoup import re alluniv def gethtmltext url try r requests.get url,timeout 30 r.raise for status r.encoding ut...
中國大學排名定向爬取
步驟一 從網路上獲取大學排名網頁內容 步驟二 提取網頁內容中資訊到合適的資料結構 步驟三 利用資料結構展示並輸出結果 通過右鍵檢視其網頁源 可得到如下介面 我們在這個介面找到如下資訊,可以發現,這些資訊是在tbody標籤下的,tr下面的td中就是我們想要爬取的資訊。我們僅爬取前四個td值進行返回,第...
中國大學排名的爬取
功能描述 輸入 大學排名的url鏈結 輸出 大學排名資訊的螢幕輸出 排名,大學名稱,總分 技術路線 requests bs4 定向爬蟲 進隊輸入url進行爬取,不擴充套件爬取 程式的結構設計 步驟一 從網路上獲取頁面資訊 gethtmltext 步驟二 提取網頁內容中資訊到合適的資料結構 fillu...