#coding=gbk
import requests
from bs4 import beautifulsoup
import bs4
def gethtmltext(url): // 將url資訊爬取,並將html頁面返回給其他程式
try:
r = requests.get(url,timeout=30) //30miao
r.raise_for_status() //產生異常資訊 要檢查請求是否成功,請使用r.raise_for_status()
def fillunivlist(ulist,html): // 提取html中有用的資訊,並新增到列表中
soup=beautifulsoup(html,"html.parser") //解析器
for tr in soup.find('tbody').children: //查詢tr標籤,遍歷標籤樹
if isinstance(tr,bs4.element.tag): // 對型別進行判斷,監測tr標籤型別
tds = tr('td') //列表型別tds 這是簡寫 tds=tr.find_all(『td')
def printunivlist(ulist,num): // 列印ulist列表
tplt="\t^10}\t" //格式化輸出 ^10} 1表示位置,表示用第3個引數來填充,^表示居中,10表示佔10個位置
print(tplt.format("排名","學校名稱","總分",chr(12288))) //中文空白字元chr(12288),是為了標齊
for i in range(num):
u=ulist[i]
print(tplt.format(u[0],u[1],u[2],chr(12288)))
def main():
uinfo = //存放大學資訊
url = ''
html = gethtmltext(url)
fillunivlist(uinfo,html)
printunivlist(uinfo,20) //列印大學資訊
中國最好大學排名爬取例項
從網頁上獲取html 用requests庫get方法 提取網頁內容到資料結構 比如列表 元組 字典 集合set 將處理後的資料結構展示 import requests from bs4 import beautifulsoup import bs4 defgethtmltext url try r ...
python爬取大學排名
返回載入出來的資料 def gethtmltext url return 解析列表 def fillunivlist ulist,html pass 列印資料 def printunivlist ulist,num pass 進行呼叫函式,返回結果 def main unifo url 載入html...
大學排名資訊爬取
import requests from bs4 import beautifulsoup import bs4 defgethtmltext url try r requests.get url r.raise for status return r.text except return def ...