從頭學習爬蟲(五) 請求request引數

2021-08-18 04:13:17 字數 3038 閱讀 2359

本文主要介紹下請求request引數分析。

以下摘自其他地方

header

解釋示例

accept

指定客戶端能夠接收的內容型別

accept-charset

瀏覽器可以接受的字元編碼集。

accept-charset: iso-8859-5

accept-encoding

指定瀏覽器可以支援的web伺服器返回內容壓縮編碼型別。

accept-encoding: compress, gzip

accept-language

瀏覽器可接受的語言

accept-language: en,zh

accept-ranges

可以請求網頁實體的乙個或者多個子範圍字段

accept-ranges: bytes

authorization

http授權的授權證書

authorization: basic qwxhzgrpbjpvcgvuihnlc2ftzq==

cache-control

指定請求和響應遵循的快取機制

cache-control: no-cache

connection

表示是否需要持久連線。(http 1.1預設進行持久連線)

connection: close

cookie

http請求傳送時,會把儲存在該請求網域名稱下的所有cookie值一起傳送給web伺服器。

cookie: $version=1; skin=new;

content-length

請求的內容長度

content-length: 348

content-type

請求的與實體對應的mime資訊

date

請求傳送的日期和時間

date: tue, 15 nov 2010 08:12:31 gmt

expect

請求的特定的伺服器行為

expect: 100-continue

from

發出請求的使用者的email

from: [email protected]

host

指定請求的伺服器的網域名稱和埠號

host: www.zcmhi.com

if-match

只有請求內容與實體相匹配才有效

if-match: 「737060cd8c284d8af7ad3082f209582d」

if-modified-since

如果請求的部分在指定時間之後被修改則請求成功,未被修改則返回304**

if-modified-since: sat, 29 oct 2010 19:43:31 gmt

if-none-match

如果內容未改變返回304**,引數為伺服器先前傳送的etag,與伺服器回應的etag比較判斷是否改變

if-none-match: 「737060cd8c284d8af7ad3082f209582d」

if-range

如果實體未改變,伺服器傳送客戶端丟失的部分,否則傳送整個實體。引數也為etag

if-range: 「737060cd8c284d8af7ad3082f209582d」

if-unmodified-since

只在實體在指定時間之後未被修改才請求成功

if-unmodified-since: sat, 29 oct 2010 19:43:31 gmt

max-forwards

限制資訊通過**和閘道器傳送的時間

max-forwards: 10

pragma

用來包含實現特定的指令

pragma: no-cache

proxy-authorization

連線到**的授權證書

proxy-authorization: basic qwxhzgrpbjpvcgvuihnlc2ftzq==

range

只請求實體的一部分,指定範圍

range: bytes=500-999

referer

先前網頁的位址,當前請求網頁緊隨其後,即來路

referer: 

te客戶端願意接受的傳輸編碼,並通知伺服器接受接受尾加頭資訊

te: trailers,deflate;q=0.5

upgrade

向伺服器指定某種傳輸協議以便伺服器進行轉換(如果支援)

user-agent的內容包含發出請求的使用者資訊

user-agent: mozilla/5.0 (linux; x11)

via通知中間閘道器或**伺服器位址,通訊協議

via: 1.0 fred, 1.1 nowhere.com (apache/1.1)

warning

關於訊息實體的警告資訊

warn: 199 miscellaneous warning

紅色是我標註出來的,比較常用的,高階篇會實戰分析請求引數

好吧。。。就是告訴服務端我去請求這個,是通過上個鏈結鏈結過去的。

accept

很重要,區分型別,比如是個json,image

accept-charset

亂碼問題,多半是他,自己對著瀏覽器解析好的編碼,utf-8和gb2312比較常見

accept-encodeing

服務端會給你壓縮內容,用來解決傳輸問題,如果可以解壓那就照常,如果你壓根不想要壓縮,可以把這個填空(如果加引數gzip可能會造成亂碼問題)

user-agent

cookie

這個不說了太複雜了,高階篇進。

其他引數

可以參考壓力測試需要新增引數

請求類似我們寫的介面,有些引數必填,有些引數不需要,有些引數格式有要求,請按說明書操作(反爬策略、請求規範)

python小白學習記錄 爬蟲requests篇

一 引用庫 import requests 二 請求訪問url,網頁相應 res requests.get 網頁位址 三 表明返回內容 目前返回的response物件有四種屬性 status code 檢查請求是否成功 content 將資料轉換為二進位制資料 text 將資料轉換為字串型資料 en...

tp5學習基礎知識總結 4 請求REQUEST

第一種 使用系統方法 re request 第二種 使用系統類 因為是單例模式所以不能直接new res think request instance dump res 第三種 引入 think controller think request 兩個系統類 use think controller ...

python爬蟲學習(五)

目標 破解有道翻譯介面,抓取翻譯結果 結果展示 請輸入要翻譯的詞語 elephant 翻譯結果 大象 請輸入要翻譯的詞語 喵喵叫 翻譯結果 mews實現步驟 1 瀏覽器f12開啟網路抓包,network all,頁面翻譯單詞後找form表單資料 2 在頁面中多翻譯幾個單詞,觀察form表單資料變化 ...