爬蟲資料抓包

2021-07-26 12:17:34 字數 921 閱讀 8556

抓包分析是爬蟲研發的最基礎和關鍵的步驟。要足夠細心和耐心,開發時應採取循序漸進的步驟,並在每個關鍵環節留有日誌輸出,方便爬蟲問題的問題跟蹤與追根溯原。

accept-encoding: 客戶端要求伺服器返回的資料編碼格式

一般設為gzip, deflate的比較多

accept-language : 要求的自然語言(注意語言和編碼的概念不同

connection: 代表client與server的連線性,是keep-alive或者是none

cookie: client與server之間的溝通狀態資訊

if-modified-since:代表該網頁自哪個時間開始沒有再改變過

user-agent:客戶端把os, browser type等封裝成ua傳送給伺服器端

age: **頁面是從快取中取出後的多場時間

cache_control:伺服器要求客戶端是否快取該頁面

content-encoding: server給client的資料的編碼格式,往往為gzip

content-length: server給client端傳送資料的總位元組數,經常用於判斷是否接收結束。

content-type: 返回資料的型別,一般為text/html, 即純文字型別。

cookie包括兩部分,一部分sent,一部分receive。要嚴格區分開,在爬蟲開發過程中,構建cookies時尤為重要。cookie中往往包含n多的key,要盡量找出其關鍵的key

都跟過期時間有關。很多**是不更新if-modified-since,而是通過乙個hash值或是時間值來給etag,標誌該資源是否有過更新,從而使資源的更新與時間無關,而與這個key有關。

引數的傳遞渠道不同:get走的是http協議頭,往往被瀏覽器、os限制了長度,往往小於2kb。post走的是http訊息體,長度不限制。

推薦4個爬蟲抓包神器

fiddler 是 windows 平台最好用的視覺化抓包工具,也是大家最熟知的 http 工具,功能非常強大,除了可以清晰的了解每個請求與響應之外,還可以進行斷點設定,修改請求資料 攔截響應內容。此外,還可以自定義規則,通過修改指令碼,加入自己的特殊處理,不過因為它是 c 編寫的,如果你要寫複雜的...

USB滑鼠抓包資料

先看下上面的圖,相信這個圖很好理解吧?恩,看著挺熟悉的吧?下面還是介紹下吧。公司是有usb分析儀,不過看過,沒用過,這東西特貴。至於用,也是很簡單的,插好線後,設定一些功能,點一下執行就ok,然後就有上面的圖了。上圖是用國嵌資料中的,公司裡的東西,不好拿來用。usb資料是由二進位制數字串構成的,首先...

應用抓包之Fiddler抓包

tcpdump抓包 應用抓包之tcpdump命令抓包 原料fiddler fiddler是位於客戶端和伺服器端的http 也是目前最常用的http抓包工具之一 它能夠記錄客戶端和伺服器之間的所有 http請求,可以針對特定的http請求,分析請求資料 設定斷點 除錯web應用 修改請求的資料,甚至可...