在settings.py檔案中加入如下**即可(user_agent是固定寫法),具體使用什麼agent可以自己更改下面藍色字型內容。
user_agent = 'mozilla/5.0 (compatible; msie 9.0; windows nt 6.1; win64; x64; trident/5.0; .net clr 3.5.30729; .net clr 3.0.30729; .net clr 2.0.50727; media center pc 6.0)
在settings.py檔案中通過建立乙個agent列表,然後通過從中隨機取出1個賦值給user_agent變數即可
**如下:
import random
useragentlist = ["mozilla/5.0 (compatible; msie 9.0; windows nt 6.1; win64; x64; trident/5.0; .net clr 3.5.30729; .net clr 3.0.30729; .net clr 2.0.50727; media center pc 6.0)"
,"mozilla/5.0 (compatible; msie 8.0; windows nt 6.0; trident/4.0; wow64; trident/4.0; slcc2; .net clr 2.0.50727; .net clr 3.5.30729; .net clr 3.0.30729; .net clr 1.0.3705; .net clr 1.1.4322)",]
user_agent = random.choice(useragentlist)
在settings.py檔案中加入如下**:
fromfake_useragent
import
useragent
ua = useragent()
user_agent = ua.random
在setting.py檔案中寫乙個useragentlist列表
useragentlist = [,]
在setting.py檔案中啟用**********_middlewares,並且把預設的注釋掉
**********_middlewares =
在middlewares.py檔案中增加以下**:
romscrapy.**********middlewares.useragent
import
useragentmiddleware
from
amazon.settings
import
useragentlist
import
random
classmyuseragentmiddleware(useragentmiddleware):
def
__init__
(self
, user_agent=
''):
self
.user_agent = user_agent
def
process_request
(self
, request
, spider):
agent = random.choice(
list
(useragentlist))
request.headers[
'user-agent'
] = agent
安裝fake-useragent庫(useragent的庫)
pip install fake-useragent
在middlewares.py檔案中匯入fake-useragent庫
from fake_useragent import useragent
在middlewares.py檔案中編寫乙個middleware中介軟體,
fromfake_useragent
import
useragent
from
scrapy.**********middlewares.useragent
import
useragentmiddleware
classmyuseragentmiddleware(useragentmiddleware):
def
__init__
(self
, user_agent=
''):
self
.user_agent = user_agent
def
process_request
(self
, request
, spider):
ua = useragent()
request.headers[
'user-agent'
] = ua.random
在setting.py檔案中啟用**********_middlewares,並且把預設的注釋掉
**********_middlewares =
scrapy 設定隨機UA
爬蟲過程中的反爬措施非常重要,其中設定隨機 user agent 是一項重要的反爬措施,scrapy 中設定隨機 ua 的方式有很多種,有的複雜有的簡單。首先,說一下常規情況不使用 scrapy 時的用法,比較方便的方法是利用fake useragent包,這個包內建大量的 ua 可以隨機替換,這比...
Scrapy中新增隨機UserAgent
首先如下圖的框架,我們需要清楚user agent的偽裝是在傳送請求的headers中,middlewares就是橋梁,傳送請求之前的位置可以進行處理request請求,也就是在這裡進行useragent的新增!注 列表的useragent,截圖我只保留了3個請忽略!第一種方法在setting中手動...
Scrapy增加隨機請求頭user agent
一般為了避免伺服器反爬蟲,當我們發出request時,需要增加一些隨機的請求頭資訊 header 然後就可以輕鬆的繞過伺服器的反偵察手段了。因此一般只要在middlewares.py檔案中新增加如下 然後每次request的時候,就會有隨機的user agent了,然後就可以有效的避免伺服器反爬蟲了...