中國最好大學排名爬取例項

2021-10-04 13:56:50 字數 1559 閱讀 4742

'''從網頁上獲取html  用requests庫get方法

提取網頁內容到資料結構 比如列表 元組 字典 集合set

將處理後的資料結構展示

'''import requests

from bs4 import beautifulsoup

import bs4

defgethtmltext

(url)

:try

: r = requests.get(url,timeout =30)

r.raise_for_status(

)#丟擲異常

return r.text

except

:return

''def

fillunivlist

(ulist,html)

: soup = beautifulsoup(html,

'html.parser'

)#html做成soup 通過bs4庫處理

for tr in soup.find(

'tbody'

).children:

#遍歷tbody標籤的兒子標籤

ifisinstance

(tr,bs4.element.tag)

:#判斷tr標籤是bs4,element.tag的型別,繼承關係

tds = tr(

'td'

)print

(type

(tr)

)'''print(type(tr('td')),tr('td')) #print(tr) #列印tr標籤的所有內容'''

[tds[0]

.string,tds[1]

.string,tds[2]

.string]

)def

printunivlist

(ulist,num)

: tplt =

"\t^10}\t"

#位置 居中 寬度

print

(tplt.

format

("排名"

,"學校"

,"位址"

,chr

(12288))

)for i in

range

(num)

: u = ulist[i]

print

(tplt.

format

(u[0

],u[1]

,u[2],

chr(

12288))

)#utf-8編碼對應的中文空格資訊叫做12188

defmain()

: uinfo =

url =

''html = gethtmltext(url)

#gethtmltext的返回文字

fillunivlist(uinfo,html)

#把html通過資料結構處理

printunivlist(uinfo,20)

main(

)

python爬取最好大學排名

coding gbk import requests from bs4 import beautifulsoup import bs4 def gethtmltext url 將url資訊爬取,並將html頁面返回給其他程式 try r requests.get url,timeout 30 30m...

Python爬蟲實現 中國最好大學排名2016

中國最好大學排名網 輸入 url,num 列印行數 輸出 三個函式 獲取原始碼 defgethtmltext url try r requests.get url,timeout 30 r.raise for status 檢查狀態是否合法 return r.text except return 返...

python3爬蟲 中國最好大學排名

使用python的requests和beautifulsoup爬取前20個中國最好的大學,內容 於最好大學這個 不需要登陸,直接可以訪問靜態網頁內容,網頁如下 直接可以提取資訊,非常適合練習requests和beautifulsoup功能.主程式需要幾個部分組成 首先載入必要的包 import re...