import requests
import re
import bs4
from bs4 import beautifulsoup
#提交url獲得html頁面
def gethtmltext(url):
try:
r = requests.get(url,timeout = 30)
r.raise_for_status()
return r.text
except:
return "error"
#html頁面結構化提取存入ulist裡面
def fillunivlist(ulist,html):
soup = beautifulsoup(html,"lxml")
for tr in soup.find('tbody').children:
#判斷tr是否為標籤型別
if isinstance(tr,bs4.element.tag):
tds = tr('td')
#將ulist裡面的內容列印輸出
def printunivlist(ulist,num):
#定義輸出模板為變數tplt,\t為橫向製表符,^為中間對齊,10為每列的寬度,0,1,2代表format的格式
tplt = "\t^10}\t"
print(tplt.format("排名","學校","總分",chr(12288)))
for i in range(num):
u = ulist[i]
print(tplt.format(u[0],u[1],u[2],chr(12288)))
def main():
uinfo =
url = ""
html = gethtmltext(url)
fillunivlist(uinfo,html)
printunivlist(uinfo,20)
main()
中國部分大學排名爬蟲
目標 如下 1 import requests 引入requests庫 2from bs4 import beautifulsoup 3import bs4 引入bs4庫 4def gethtmltext url 獲得網頁內容的函式 5try 6 r requests.get url,timeout...
4爬蟲例項 大學排名
輸入 大學排名 的url鏈結 輸出 大學排名資訊的螢幕輸出 排名,學校名稱,總分 技術 requests bs4 此為定向爬蟲,僅對給定的url進行爬取,不擴充套件爬取 步驟1 獲取網頁內容 gethtmltext 步驟2 提取所需內容並放入合適的資料結構中fillunivlist 步驟3 展示結果...
爬蟲中國大學排名
from pip.vendor import requests print 訪問谷歌 獲取response物件 r requests.get x 1 while x 20 print 第 str x 次的返回狀態列印 str r.status code print 第 str x 次的text 列印...