# -*- coding:utf-8 -*-import requests
# 抓包工具
# charles
# fiddler
# 引數
1: url,
填**#
引數2: params,
**後需要新增的引數
# 引數
3: **kwargs,
不定長鍵值對引數,一般
key=value
# 在引數3中
,headers={},
# cookies={}
或者cookiejar
# timeout=
小數或者元祖
response = requests.get(""
, headers=)
print("
響應頭"
,response.headers)
print("
響應資料
",response.content)
print("
響應行中的狀態碼
",response.status_code)
print("
響應行中的短語
",response.reason)
# 反爬蟲的手段之一:#
通過請求的
user-agent
欄位來判斷你是不是乙個爬蟲
# 反反爬蟲的手段之一:#
通過修改請求頭的
user-agent
欄位來突破反爬蟲的手段
"""爬蟲程式 伺服器
編寫爬蟲**
,發起請求
,接收響應
,爬取資料
------------>
監控到某個時間段
,訪問量突然增大
,冰球發起請求的
ip位址相同,對
user-agent
字段判斷
在發起請求時,新增
user-agent欄位,
模仿使用者**
------->
檢測到某個
ip訪問速率過高
,限制訪問頻率
在發請求時
,使用**
ip,設定請求時間間隔
------------->
需要登入後才能獲取資料
註冊**賬號,模擬
cookie/token登入,
發起請求
--------->
健全賬號體系
,只有相互關注的好友才能訪問
註冊多個賬戶
,進行爬蟲
----------------------------->
發現請求過於頻繁
,彈出驗證碼
使用雲打碼平台進行驗證
----------------------------->
增加動態頁面
,比較重要的資料,使用
js發起請求動態載入
1.抓取
js騎牛
,模擬傳送
2.selenium
完全模擬使用者行為
,操作網頁
---------------->
放棄"""
Python常見的反爬手段和反反爬蟲方法
因為反爬蟲暫時是個較新的領域,因此有些定義要自己下 誤傷 在反爬蟲的過程中,錯誤的將普通使用者識別為爬蟲。誤傷率高的反爬蟲策略,效果再好也不能用。攔截 成功地阻止爬蟲訪問。這裡會有攔截率的概念。通常來說,攔截率越高的反爬蟲策略,誤傷的可能性就越高。因此需要做個權衡。資源 機器成本與人力成本的總和。這...
Python爬蟲反反爬總結
最基本的反爬手段,一般被關注的變數是useragent和refer,可以考慮使用瀏覽器裡的。其中的contentlength欄位requests包會填寫,可以不用。content type欄位是post表單的格式,必須和 的一樣。待續資料量大用ip池 偽裝成多個訪問者 爬取速度要求低用sleep 偽...
基於python的爬蟲
本次初學,參考的資料見 功能主要是抓取韓寒的部落格內容,以及儲存 到 hanhan的資料夾中,執行環境實在linux下的。見 具體 如何 usr bin env python coding utf 8 import urllib import time url 60 con urllib.urlop...