user-agent:
向伺服器傳送,包含了訪問者系統引擎版本、瀏覽器資訊的字段資訊。一般伺服器識別出是爬蟲請求,會拒絕訪問。所以此時設定user-agent,可以將爬蟲偽裝成使用者通過瀏覽器訪問。
如何檢視自己瀏覽器上的user-agent:
user-agent組成解釋:
例子:
組成:
user-agent: mozilla/5.0 (平台) 引擎版本 瀏覽器版本號
windows:
windows nt 5.0 // 如 windows 2000
windows nt 5.1 // 如 windows xp
windows nt 6.0 // 如 windows vista
windows nt 6.1 // 如 windows 7
windows nt 6.2 // 如 windows 8
windows nt 6.3 // 如 windows 8.1
windows nt 10.0 // 如 windows 10
win64; x64 // win64 on x64
wow64 // win32 on x64
linux:
x11; linux i686; // linux 桌面,i686 版本
x11; linux x86_64; // linux 桌面,x86_64 版本
x11; linux i686 on x86_64 // linux 桌面,執行在 x86_64 的 i686 版本
macos:
macintosh; intel mac os x 10_9_0 // intel x86 或者 x86_64
macintosh; ppc mac os x 10_9_0 // powerpc
macintosh; intel mac os x 10.12; // 不用下劃線,用點
瀏覽器版本:
chrome瀏覽器,其中86.0 是大版本,4240是持續增大的乙個數字,而111則是修補漏洞的小版本。
常用user-agent:
1) chrome
win7:
2) firefox
win7:
mozilla/5.0 (windows nt 6.1; wow64; rv:6.0) gecko/20100101 firefox/6.0
3) safari
win7:
4) opera
win7:
opera/9.80 (windows nt 6.1; u; zh-cn) presto/2.9.168 version/11.50
5) ie
win7+ie9:
mozilla/5.0 (compatible; msie 9.0; windows nt 6.1; win64; x64; trident/5.0; .net clr 2.0.50727; slcc2; .net clr 3.5.30729; .net clr 3.0.30729; media center pc 6.0; infopath.3; .net4.0c; tablet pc 2.0; .net4.0e)
win7+ie8:
mozilla/4.0 (compatible; msie 8.0; windows nt 6.1; wow64; trident/4.0; slcc2; .net clr 2.0.50727; .net clr 3.5.30729; .net clr 3.0.30729; media center pc 6.0; .net4.0c; infopath.3)
winxp+ie8:
mozilla/4.0 (compatible; msie 8.0; windows nt 5.1; trident/4.0; gtb7.0)
winxp+ie7:
mozilla/4.0 (compatible; msie 7.0; windows nt 5.1)
winxp+ie6:
mozilla/4.0 (compatible; msie 6.0; windows nt 5.1; sv1)
6) 傲遊
傲遊3.1.7在win7+ie9,高速模式:
傲遊3.1.7在win7+ie9,ie核心相容模式:
mozilla/4.0 (compatible; msie 7.0; windows nt 6.1; wow64; trident/5.0; slcc2; .net clr 2.0.50727; .net clr 3.5.30729; .net clr 3.0.30729; media center pc 6.0; infopath.3; .net4.0c; .net4.0e)
7) 搜狗
搜狗3.0在win7+ie9,ie核心相容模式:
mozilla/4.0 (compatible; msie 7.0; windows nt 6.1; wow64; trident/5.0; slcc2; .net clr 2.0.50727; .net clr 3.5.30729; .net clr 3.0.30729; media center pc 6.0; infopath.3; .net4.0c; .net4.0e; se 2.x metasr 1.0)
搜狗3.0在win7+ie9,高速模式:
8) 360
360瀏覽器3.0在win7+ie9:
mozilla/5.0 (compatible; msie 9.0; windows nt 6.1; wow64; trident/5.0; slcc2; .net clr 2.0.50727; .net clr 3.5.30729; .net clr 3.0.30729; media center pc 6.0; infopath.3; .net4.0c; .net4.0e)
9) qq瀏覽器
qq瀏覽器6.9(11079)在win7+ie9,極速模式:
qq瀏覽器6.9(11079)在win7+ie9,ie核心相容模式:
mozilla/4.0 (compatible; msie 7.0; windows nt 6.1; wow64; trident/5.0; slcc2; .net clr 2.0.50727; .net clr 3.5.30729; .net clr 3.0.30729; media center pc 6.0; infopath.3; .net4.0c; .net4.0e) qqbrowser/6.9.11079.201
10) 阿雲瀏覽器
阿雲瀏覽器1.3.0.1724 beta(編譯日期2011-12-05)在win7+ie9:
mozilla/5.0 (compatible; msie 9.0; windows nt 6.1; wow64; trident/5.0)
Scrapy增加隨機請求頭user agent
一般為了避免伺服器反爬蟲,當我們發出request時,需要增加一些隨機的請求頭資訊 header 然後就可以輕鬆的繞過伺服器的反偵察手段了。因此一般只要在middlewares.py檔案中新增加如下 然後每次request的時候,就會有隨機的user agent了,然後就可以有效的避免伺服器反爬蟲了...
http請求頭響應頭
今天的內容首先是http協議其中包括請求頭 request 和響應頭 response 請求頭中包含 accept 告訴伺服器,瀏覽器所支援的資料型別 accept charset 告訴伺服器,瀏覽器支援的字符集 accept encoding 告訴伺服器,瀏覽器所支援的資料解壓演算法 accept...
http 請求頭欄位
1.http1.0請求協議特點是一次只能訪問伺服器上的乙個請求資源,請求完畢後伺服器立馬斷開連線 http1.1協議則可訪問多個資源。2.get請求資料容量不能超過1k,get請求陣列在請求資源後邊即在請求行 post請求資料量沒限制,post請求資料在請求體中 3.請求頭各欄位詳解 accept ...