Python Requests庫的爬取效能分析

「任意」找個url，測試一下成功爬取100次網頁的時間。（某些**對於連續爬取頁面將採取遮蔽ip的策略，所以，要避開這類**。）

import requests
import time
def gethtmltext(url):
try:       # try except:用於異常處理
r = requests.get(url, timeout=30)   # get到**  timeout=30:如果get時間超過30s,則停止等待響應 
r.raise_for_status()                        # 檢測是否連線成功
return r.text
except:
return '執行異常'
if __name__ == "__main__":  # python 模擬的程式入口
url = ''
totaltime = 0
for i in range(100):
starttime = time.perf_counter()
gethtmltext(url)
endtime = time.perf_counter()
print('第次爬取，用時秒'.format(i+1, endtime-starttime))
totaltime=totaltime+endtime-starttime
print('總共用時秒'.format(totaltime))

網路爬蟲有風險，爬取資料需謹慎

離線安裝python requests庫

requests 2.19.1 certifi required 2017.4.17,installed 2018.4.16 ca認證模組 chardet required 3.1.0,3.0.2,installed 3.0.4 通用字元編碼檢測器模組 idna required 2.8,2.5,i...

python Requests庫入門（一）

1 搜尋cmd，以管理員的身份執行 2 輸入pip install requests 截圖所示便代表已安裝好 3 開啟idle進行簡單測試 import requests r requests.get r.status code 200 此時返回值狀態碼應是200，200表示訪問成功下面繼續 r....

python requests庫的使用

如果auth使用不通過的話，可以再header加入cookie header data request請求 response requests.request get url,params params,headers headers,auth auth session 請求 session req...

Python Requests庫的爬取效能分析

離線安裝python requests庫

python Requests庫入門（一）

python requests庫的使用

相關推薦