Python爬蟲例項

'''
中國大學排名專案
功能描述
輸出：大學排名資訊的螢幕輸出（排名，大學名稱，總分）
技術路線：requests-bs4
定向爬蟲：僅對輸入url進行爬取，不擴充套件爬取
''''''
程式的結構設計
步驟1：從網路上獲取大學排名網頁內容
步驟2：提取網頁內容中資訊到合適的資料結構（二維列表）
步驟3：利用資料結構展示並輸出結果
'''import re
from bs4 import beautifulsoup
import bs4
import requests
#從網路上獲取大學排名網頁內容
def 
gethtmltext(url):
try:
r = requests.get(url,
timeout = 30)
r.raise_for_status()
return r.text
except:
return 
""#提取網頁內容中資訊到合適的資料結構
def 
fillunivlist(ulist,html):
soup = beautifulsoup(html,
"html.parser")
for tr in soup.find("tbody").children:
if isinstance(tr,bs4.element.tag):
tds = tr("td")
pass
#利用資料結構展示並輸出結果
def 
printunivlist(ulist,num):
print("
\t\t
".format("排名"
,"學校"
,"分數"))
for i in 
range(num):
u = ulist[i]
print("
\t\t
".format(u[0],u[1],u[2]))
print("suc"+str(num))
def 
main():
uinfo = 
url = ""
html=gethtmltext(url)
fillunivlist(uinfo,html)
printunivlist(uinfo,
20)# 20 univs
'''優化
中文對齊問題的原因
採用中文字元的空格填充chr(12288)
''''''
numpy的隨機數函式子庫
numpy的random子庫
rand()
randn()
randint()
seed()
np.random的隨機函式
uniform(low,high,size)
normal(loc,scale,size)
poisson(lam,size)
'''

python 爬蟲例項

coding utf 8 import re import sys import os from time import sleep from bs4 import beautifulsoup import requests reload sys sys.setdefaultencoding utf...

Python 爬蟲例項

下面是我寫的乙個簡單爬蟲例項 1.定義函式讀取html網頁的源 2.從源通過正規表示式挑選出自己需要獲取的內容 3.序列中的htm依次寫到d盤 usr bin python import re import urllib.request 定義函式讀取html網頁的源 def gethtml url...

python爬蟲 10 爬蟲例項（6）

coding utf 8 import re import requests import time f open 鬥破蒼穹.txt a def get info url response requests.get url,headers header if response.status code...

Python爬蟲例項

python 爬蟲例項

Python 爬蟲例項

python爬蟲 10 爬蟲例項（6）

相關推薦