爬蟲 中國大學排名定向爬蟲例項

2021-09-01 11:47:59 字數 1605 閱讀 3359

最好大學排名

輸出:大學排名資訊的螢幕輸出(排名,大學名稱,總分)

技術路線:requests-bs4

定向爬蟲:僅對輸入url進行爬取,不擴充套件爬取

bs4只能獲取靜態url資訊

步驟1:從網路上獲取大學排名網頁內容

定義gethtmltext()

步驟2:提取網頁內容中資訊到合適的資料結構

定義fillunivlist()

步驟3:利用資料結構展示並輸出結果

定義printunivlist()

{}是槽,例如格式化輸出的第0個字元依次累加,輸出寬度為10個字元,向右對其(不加^預設左對齊),寬度小於字串的實際寬度,以實際寬度輸出;省略0即按槽對應順序

中的0是乙個序號,表示格式化輸出的第0個字元,依次累加;

中的30表示輸出寬度約束為10個字元;

中的^表示輸出時右對齊,若寬度小於字串的實際寬度,以實際寬度輸出;

詳情見:

# -*- coding: cp936 -*-

##對應於"age",^右對齊輸出

##對應於"name",左對齊輸出(預設)

print("\n\n".format("age","name"))

輸出為:

agename

name

import requests

from bs4 import beautifulsoup

import bs4

def gethtmltext(url):

try:

r=requests.get(url,timeout=30)

r.raise_for_status()

return r.text

except:

return ""

def fillunivlist(ulist,html):

soup=beautifulsoup(html,"html.parser")

for tr in soup.find('tbody').children:

if isinstance(tr,bs4.element.tag):

tds=tr('td')

def printunivlist(ulist,num):

print("\t^10}\t^10}\t\t".format("排名","學校名稱","省份","總分","生源質量",chr(12288)))

python格式化輸出詳解:

中國大學排名定向爬蟲例項

第乙個大學 第n個大學 import requests from bs4 import beautifulsoup import bs4 def gethtmltext url 輸入url,返回html try r requests.get url,timeout 30 r.raise for st...

爬蟲例項(中國大學排名定向排名)

功能 輸出 大學排名資訊的螢幕輸出 排名,大學名稱,總分 技術路線 requests bs4 定向爬蟲 僅對輸入的url進行爬取,不擴充套件爬取 步驟 1.從網路上獲取大學排名網頁內容 2.提取網頁中資訊到合適的資料結構 3.利用資料結構展示並輸出結果 程式的結構設計 1.從網路上獲取大學排名網頁內...

定向爬蟲例項之中國大學排名定向爬蟲

定向爬蟲指的是只針對所給的url的頁面爬取,不擴充套件爬取的爬蟲。給的例子的網頁採用靜態頁面的方式,是非常好的學習例子。本次例項的要求 url import requests from bs4 import beautifulsoup import os import re import bs4程式...