「任意」找個url,測試一下成功爬取100次網頁的時間。(某些**對於連續爬取頁面將採取遮蔽ip的策略,所以,要避開這類**。)
import requests
import time
def gethtmltext(url):
try: # try except:用於異常處理
r = requests.get(url, timeout=30) # get到** timeout=30:如果get時間超過30s,則停止等待響應
r.raise_for_status() # 檢測是否連線成功
return r.text
except:
return '執行異常'
if __name__ == "__main__": # python 模擬的程式入口
url = ''
totaltime = 0
for i in range(100):
starttime = time.perf_counter()
gethtmltext(url)
endtime = time.perf_counter()
print('第次爬取,用時秒'.format(i+1, endtime-starttime))
totaltime=totaltime+endtime-starttime
print('總共用時秒'.format(totaltime))
網路爬蟲有風險,爬取資料需謹慎
離線安裝python requests庫
requests 2.19.1 certifi required 2017.4.17,installed 2018.4.16 ca認證模組 chardet required 3.1.0,3.0.2,installed 3.0.4 通用字元編碼檢測器模組 idna required 2.8,2.5,i...
python Requests庫入門(一)
1 搜尋cmd,以管理員的身份執行 2 輸入pip install requests 截圖所示便代表已安裝好 3 開啟idle進行簡單測試 import requests r requests.get r.status code 200 此時返回值狀態碼應是200,200表示訪問成功 下面繼續 r....
python requests庫的使用
如果auth使用不通過的話,可以再header加入cookie header data request請求 response requests.request get url,params params,headers headers,auth auth session 請求 session req...