要爬取的**:2020軟科中國大學排名
**思路均來自:北京理工大學-python網路爬蟲與資訊提取(mooc)對爬蟲感興趣的可以去看一下。
爬蟲的第一步首先要檢查所爬取的**是否有爬蟲協議(robots協議),爬取人家的東西,還是要看看人家**上那些東西是不能爬的。
檢查2020軟科中國大學排名的爬蟲協議得到結果如下:
從結果中可以知道2020軟科中國大學排名是沒有爬蟲協議的,可以爬取想要的內容。但是無論乙個**是否有爬蟲協議,不該爬的東西一定不要爬,這是乙個君子協議。
以下是全部**:
import requests
from bs4 import beautifulsoup
import bs4
#程式內容:中國大學排名
#獲取網頁內容
defgettext
(url)
:try
: r = requests.get(url,timeout =30)
r.raise_for_status(
) except
:print
('爬取失敗!'
)return r.text
#將獲取得網頁篩選想要的內容,並新增到乙個列表中
defneedlist
(ulist,html)
:try
: soup = beautifulsoup(html,
'html.parser'
)for tr in soup.find(
'tbody'
).children:
#print(type(tr))
ifisinstance
(tr,bs4.element.tag)
:#將不是bs4.element.tag的內容剔除
tds = tr(
'td'
)[tds[0]
.string,tds[1]
.string,tds[2]
.string,tds[3]
.string,tds[4]
.string]
)except
:print
('網頁解析失敗!'
)#輸出
defprintlist
(ulist,num)
:try
: tplt =
" \t\t\t\t"
print
(tplt.
format
("排名"
,'學校名稱'
,'省市'
,'學校型別'
,'總分'
,chr
(12288))
)for i in
range
(num)
: u = ulist[i]
print
(tplt.
format
(u[0
], u[1]
, u[2]
, u[3]
, u[4]
,chr
(12288))
)except
:print
('輸出發生問題!'
)#主函式
defmain()
: ulist =
url =
''html = gettext(url)
needlist(ulist,html)
printlist(ulist,10)
main(
)
最終的結果:
注:
本文只用於交流學習,不作其他用途。
2023年中國品牌定位公司哪家好
品牌定位是市場定位的核心和集中表現。是企業在市場定位和產品定位的基礎上,對特定的品牌在文化取向及個性程式設計客棧差異上的商業性決策,它是建立乙個與目標市場有關的品牌形象的過程和結果。品牌定位公司為企業客戶創造價值的核心能力在於其專業深度 創造力和實戰力。品牌定位公司要能夠洞察發現客戶發現不了的行業趨...
2023年中國IT的市場機會
背景 烏雲籠罩 始於2006 年春季的次貸危機,是一場源於次級抵押貸款機構破產 投資 被迫關閉 劇烈 的風暴。2009 年全球經濟增長將進一步放緩,北美 西歐 日本的 gdp增長都將降低至 1 以下。受全球經濟的影響,中國也不能獨善其身,經濟增長開始放緩,2008 年上半年,中國約有 7萬家中小企業...
2023年中國深圳LED透明屏品牌排行榜
2020年度全國led透明屏品牌排行,此次評選依託行業口碑及線上資料,綜合參考企業研發 生產 服務 工程案例 市場占有率等方面。如果您正在查詢led透明屏廠家哪家好?那麼2020年中國深圳led透明屏品牌排行榜,可供你作為選購參考,讓你選的放心。以下排序不分先後 綜合實力得分排 況 參考品牌影響力 ...