功能描述:
輸入:大學排名url鏈結
輸出:大學排名資訊的螢幕輸出(排名,大學名稱,總分)
技術路線:requests+bs4
定向爬蟲:僅對輸入url進行爬取,不擴充套件爬取
程式的結構設計:
步驟1:從網路上獲取大學排名網頁內容
gethtmltext()
步驟2:提取網頁內容中資訊到合適的資料結構
fillunivlist
步驟3:利用資料結構展示並輸出結果
printunivlist()
import輸出:requests
from bs4 import
beautifulsoup
import
bs4def
gethtmltext(url):
try:
r = requests.get(url, timeout = 30)
r.raise_for_status()
return
r.text
except
:
return
""def
fillunivlist(ulist, html):
soup = beautifulsoup(html, "
html.parser")
for tr in soup.find('
tbody
').children: #
遍歷tbody子節點列表
if isinstance(tr, bs4.element.tag): #
判斷兩個型別是否相同
tds = tr('
td') #
等價於tds = tr.find_all('td'),返回乙個列表
defprintunivlist(ulist, num):
tplt = "
\t^8}\t"#
解決中文字元對齊問題
print(tplt.format("
排名", "
學校名稱
", "
總分", chr(12288)))
for i in
range(num):
u =ulist[i]
print(tplt.format(u[0], u[1], u[2], chr(12288)))
defmain():
uinfo =
url = '
'html =gethtmltext(url)
fillunivlist(uinfo, html)
printunivlist(uinfo, 10)
main()
爬蟲例項(中國大學排名定向排名)
功能 輸出 大學排名資訊的螢幕輸出 排名,大學名稱,總分 技術路線 requests bs4 定向爬蟲 僅對輸入的url進行爬取,不擴充套件爬取 步驟 1.從網路上獲取大學排名網頁內容 2.提取網頁中資訊到合適的資料結構 3.利用資料結構展示並輸出結果 程式的結構設計 1.從網路上獲取大學排名網頁內...
中國大學排名定向爬蟲例項
第乙個大學 第n個大學 import requests from bs4 import beautifulsoup import bs4 def gethtmltext url 輸入url,返回html try r requests.get url,timeout 30 r.raise for st...
Python 中國大學排名定向爬蟲
來自於中國大學mooc北京理工大學pythont教學團隊 1.函式版 中國大學定向爬蟲 import requests from bs4 import beautifulsoup import bs4 defgethtmltext url try r requests.get url,timeout...