re bs4 例項 中國大學排名

2021-08-29 05:20:54 字數 1497 閱讀 3991

import requests

from bs4 import beautifulsoup

import bs4

'''功能描述

輸出:大學排名資訊的螢幕輸出(排名,大學名稱,總分)

技術路線:requests‐bs4

定向爬蟲:僅對輸入url進行爬取,不擴充套件爬取

'''# 從網路上獲取大學排名網頁內容

defget_html_text

(url)

:try

: r = requests.get(url, timeout=30)

# 獲取網頁資訊,30秒則超時

r.raise_for_status(

)# 如果狀態不是200,引發http——error異常

return r.text

except

:return

""# 提取網頁內容中資訊到合適的資料結構

deffill_univlist

(ulist, html)

: soup = beautifulsoup(html,

"html.parser"

)for tr in soup.find(

'tbody'

).children:

# 遍歷每乙個tr組,而每乙個tr組代表著乙個大學

ifisinstance

(tr, bs4.element.tag)

:# 檢測是否是tag型別

tds = tr(

'td'

)[tds[0]

.string, tds[1]

.string, tds[3]

.string]

)# 利用資料結構展示並輸出結果

defprint_univlist

(ulist, num)

: tplt =

"\t^10}\t"

print

(tplt.

format

("排名"

,"學校名稱"

,"總分"

,chr

(12288))

)# chr(12288)是中文空格

for i in

range

(num)

: u = ulist[i]

print

(tplt.

format

(u[0

], u[1]

, u[2]

,chr

(12288))

)def

main()

: uinfo =

url =

''html = get_html_text(url)

fill_univlist(uinfo, html)

print_univlist(uinfo,20)

# 20 univs

main(

)

爬蟲例項(中國大學排名定向排名)

功能 輸出 大學排名資訊的螢幕輸出 排名,大學名稱,總分 技術路線 requests bs4 定向爬蟲 僅對輸入的url進行爬取,不擴充套件爬取 步驟 1.從網路上獲取大學排名網頁內容 2.提取網頁中資訊到合適的資料結構 3.利用資料結構展示並輸出結果 程式的結構設計 1.從網路上獲取大學排名網頁內...

中國大學排名定向爬蟲例項

第乙個大學 第n個大學 import requests from bs4 import beautifulsoup import bs4 def gethtmltext url 輸入url,返回html try r requests.get url,timeout 30 r.raise for st...

爬蟲中國大學排名

from pip.vendor import requests print 訪問谷歌 獲取response物件 r requests.get x 1 while x 20 print 第 str x 次的返回狀態列印 str r.status code print 第 str x 次的text 列印...