import requests
from bs4 import beautifulsoup
import bs4
'''功能描述
輸出:大學排名資訊的螢幕輸出(排名,大學名稱,總分)
技術路線:requests‐bs4
定向爬蟲:僅對輸入url進行爬取,不擴充套件爬取
'''# 從網路上獲取大學排名網頁內容
defget_html_text
(url)
:try
: r = requests.get(url, timeout=30)
# 獲取網頁資訊,30秒則超時
r.raise_for_status(
)# 如果狀態不是200,引發http——error異常
return r.text
except
:return
""# 提取網頁內容中資訊到合適的資料結構
deffill_univlist
(ulist, html)
: soup = beautifulsoup(html,
"html.parser"
)for tr in soup.find(
'tbody'
).children:
# 遍歷每乙個tr組,而每乙個tr組代表著乙個大學
ifisinstance
(tr, bs4.element.tag)
:# 檢測是否是tag型別
tds = tr(
'td'
)[tds[0]
.string, tds[1]
.string, tds[3]
.string]
)# 利用資料結構展示並輸出結果
defprint_univlist
(ulist, num)
: tplt =
"\t^10}\t"
print
(tplt.
format
("排名"
,"學校名稱"
,"總分"
,chr
(12288))
)# chr(12288)是中文空格
for i in
range
(num)
: u = ulist[i]
print
(tplt.
format
(u[0
], u[1]
, u[2]
,chr
(12288))
)def
main()
: uinfo =
url =
''html = get_html_text(url)
fill_univlist(uinfo, html)
print_univlist(uinfo,20)
# 20 univs
main(
)
爬蟲例項(中國大學排名定向排名)
功能 輸出 大學排名資訊的螢幕輸出 排名,大學名稱,總分 技術路線 requests bs4 定向爬蟲 僅對輸入的url進行爬取,不擴充套件爬取 步驟 1.從網路上獲取大學排名網頁內容 2.提取網頁中資訊到合適的資料結構 3.利用資料結構展示並輸出結果 程式的結構設計 1.從網路上獲取大學排名網頁內...
中國大學排名定向爬蟲例項
第乙個大學 第n個大學 import requests from bs4 import beautifulsoup import bs4 def gethtmltext url 輸入url,返回html try r requests.get url,timeout 30 r.raise for st...
爬蟲中國大學排名
from pip.vendor import requests print 訪問谷歌 獲取response物件 r requests.get x 1 while x 20 print 第 str x 次的返回狀態列印 str r.status code print 第 str x 次的text 列印...