time函式控制爬蟲的節奏

2021-09-24 08:10:48 字數 466 閱讀 1480

**對爬蟲的限制,最主要依賴於每個ip(或每個使用者)的訪問頻次,過高頻率的訪問會被**限制訪問,因此我們應該針對每個目標位址的訪問頻率限定。

常用方法是設定間隔時間,抓取網頁之後,停頓固定時間之後,再次進行抓取。

例子如下:

首先編寫乙個模組檔案規定網頁抓取間隔時間,命名為global_var.py,

headers = 

crawl_interval = 2.5 #定義網頁抓取時間間隔為2.5s

除了匯入剛剛編寫成的模組之外,還要匯入模組time利用sleep函式暫停給定的秒數後執行程式,

import time

import global_var

time.sleep(global_var.crawl_interval) #和requests一起寫進函式,只不過它放在最後面

其他步驟和普通的爬蟲一樣。

Python爬蟲學習 案例 控制抓取節奏(8)

對爬蟲的限制,最主要依賴於每個ip 或每個使用者 的訪問頻次,過高頻率 的訪問會被 限制訪問 控制節奏主要針對每個目標位址的訪問頻率 引入time庫 import time defget content self,topic url,page querystring url self.domain ...

MYSQL常用函式(控制流函式)

mysql有4個函式是用來進行條件操作的,這些函式可以實現sql的條件邏輯,允許開發者將一些應用程式業務邏輯轉換到資料庫後台。mysql控制流函式 case when test1 then result1 else default end如果testn是真,則返回resultn,否則返回defaul...

顯示動畫的節奏控制

當需要對非root layer進行動畫或者需要對動畫做更多自定義的行為的時候,就必須使用到顯式動畫了,顯式動畫的基類為caanimation,常用的是cabasicanimation,cakeyframeanimation有時候還會使用到caanimationgroup,catransition 注...