基於python的 反反爬蟲手段

2021-08-16 06:01:57 字數 1653 閱讀 9515

# -*- coding:utf-8 -*-

import requests

# 抓包工具

# charles

# fiddler

# 引數

1: url,

填**#

引數2: params,

**後需要新增的引數

# 引數

3: **kwargs,

不定長鍵值對引數,一般

key=value

# 在引數3中

,headers={},

# cookies={}

或者cookiejar

# timeout=

小數或者元祖

response = requests.get(""

, headers=)

print("

響應頭"

,response.headers)

print("

響應資料

",response.content)

print("

響應行中的狀態碼

",response.status_code)

print("

響應行中的短語

",response.reason)

# 反爬蟲的手段之一:#

通過請求的

user-agent

欄位來判斷你是不是乙個爬蟲

# 反反爬蟲的手段之一:#

通過修改請求頭的

user-agent

欄位來突破反爬蟲的手段

"""爬蟲程式 伺服器

編寫爬蟲**

,發起請求

,接收響應

,爬取資料

------------>

監控到某個時間段

,訪問量突然增大

,冰球發起請求的

ip位址相同,對

user-agent

字段判斷

在發起請求時,新增

user-agent欄位,

模仿使用者**

------->

檢測到某個

ip訪問速率過高

,限制訪問頻率

在發請求時

,使用**

ip,設定請求時間間隔

------------->

需要登入後才能獲取資料

註冊**賬號,模擬

cookie/token登入,

發起請求

--------->

健全賬號體系

,只有相互關注的好友才能訪問

註冊多個賬戶

,進行爬蟲

----------------------------->

發現請求過於頻繁

,彈出驗證碼

使用雲打碼平台進行驗證

----------------------------->

增加動態頁面

,比較重要的資料,使用

js發起請求動態載入

1.抓取

js騎牛

,模擬傳送

2.selenium

完全模擬使用者行為

,操作網頁

---------------->

放棄"""

Python常見的反爬手段和反反爬蟲方法

因為反爬蟲暫時是個較新的領域,因此有些定義要自己下 誤傷 在反爬蟲的過程中,錯誤的將普通使用者識別為爬蟲。誤傷率高的反爬蟲策略,效果再好也不能用。攔截 成功地阻止爬蟲訪問。這裡會有攔截率的概念。通常來說,攔截率越高的反爬蟲策略,誤傷的可能性就越高。因此需要做個權衡。資源 機器成本與人力成本的總和。這...

Python爬蟲反反爬總結

最基本的反爬手段,一般被關注的變數是useragent和refer,可以考慮使用瀏覽器裡的。其中的contentlength欄位requests包會填寫,可以不用。content type欄位是post表單的格式,必須和 的一樣。待續資料量大用ip池 偽裝成多個訪問者 爬取速度要求低用sleep 偽...

基於python的爬蟲

本次初學,參考的資料見 功能主要是抓取韓寒的部落格內容,以及儲存 到 hanhan的資料夾中,執行環境實在linux下的。見 具體 如何 usr bin env python coding utf 8 import urllib import time url 60 con urllib.urlop...