一些**常常通過判斷ua來給不同的作業系統、不同的瀏覽器傳送不同的頁面,因此可能造成某些頁面無法在某個瀏覽器中正常顯示,但通過偽裝ua可以繞過檢測。user-agent
即使用者**,簡稱ua
,它是乙個特殊字串頭,使得伺服器能夠識別客戶使用的作業系統及版本、cpu型別、瀏覽器及版本、瀏覽器渲染引擎、瀏覽器語言、瀏覽器外掛程式等。
【標準格式】:
瀏覽器標識 (作業系統標識; 加密等級標識; 瀏覽器語言) 渲染引擎標識 版本資訊
mozilla/
5.0(macintosh; intel mac os
x537.36
(khtml
, like gecko) chrome/
76.0
.3809
.100 safari/
537.36
mozilla/
5.0(windows nt
6.3;
wow64
537.36
(khtml
, like gecko) chrome/
33.0
.1750
.29 safari/
537.36
反爬更好的方式是使用user-agent池
來解決(如隨機生成user-agent)
import random
def get_ua()
: first_num = random.
randint(55
,76) third_num = random.
randint(0
,3800
) fourth_num = random.
randint(0
,140
) os_type =
['(windows nt 6.1; wow64)'
,'(windows nt 10.0; wow64)'
,'(x11; linux x86_64)'
,'(macintosh; intel mac os x 10_14_5)'
] chrome_version =
'chrome/{}.0.{}.{}'
.format
(first_num, third_num, fourth_num)
ua =
' '.
join([
'mozilla/5.0'
, random.
choice
(os_type),,
'(khtml, like gecko)'
, chrome_version,
'safari/537.36'])
return ua
執行結果:
mozilla/
5.0(macintosh; intel mac os
x537.36
(khtml
, like gecko) chrome/
69.0
.2389
.22 safari/
537.36
爬蟲基礎3 反爬手段
1.user agent user agent中文名為使用者 簡稱 ua,它是乙個特殊字串頭,使得伺服器能夠識別客戶使用的作業系統及版本 cpu 型別 瀏覽器及版本 瀏覽器渲染引擎 瀏覽器語言 瀏覽器外掛程式等。2.ip 西次 快 什麼是高匿名 匿名和透明 它們有什麼區別?1.使用透明 ip,對方伺...
反爬手段以及應對的方法
概念 前言weixin.sogou.com 是乙個反爬極其嚴厲的站點。ip位址,cookie,驗證碼都有限制。尤其對cookie的限制 爬取 sogou.weixin.com 的 http 請求的 cookie 中,必須包含四個引數 snuid suid ppinf 和ppmdig。其中 snuid...
Python常見的反爬手段和反反爬蟲方法
因為反爬蟲暫時是個較新的領域,因此有些定義要自己下 誤傷 在反爬蟲的過程中,錯誤的將普通使用者識別為爬蟲。誤傷率高的反爬蟲策略,效果再好也不能用。攔截 成功地阻止爬蟲訪問。這裡會有攔截率的概念。通常來說,攔截率越高的反爬蟲策略,誤傷的可能性就越高。因此需要做個權衡。資源 機器成本與人力成本的總和。這...