python爬蟲01在Chrome瀏覽器抓包

盡量不要用國產瀏覽器，很多是有後門的

chrome是首選

按下f12

element標籤下對應的html**

點選network，可以看到很多請求

http請求的方式有好幾種，get,post,put,delete,head,options,trace

不過最常見的就是get和post請求

get：

內容post：

資訊提交註冊登陸

post的引數不會直接放在url上，會以form表單的形式將資料提交給伺服器

可以發現，

get請求把請求引數都暴露在url上

而post請求的引數放在request body裡面

post請求方式還對密碼引數加了密

請求頭pequest header

我們在做 http 請求的時候

除了提交一些引數之外

我們還有定義一些 http 請求的頭部資訊

比如 accept、host、cookie、user-agent等等

這些引數也是我們在做爬蟲要用到

通過這些資訊，欺騙伺服器，告訴它我們是正規請求

比如我們可以在**裡面設定 cookie 告訴伺服器我們就是在這個瀏覽器請求的會話

user-agent 告訴伺服器我們是瀏覽器請求的

響應這些 404 啊，200啊，301啊，502啊

都是伺服器的響應碼

一般伺服器給我們返回 200

那就說明

我們成功請求了

響應頭這個頭主要是告訴我們資料以什麼樣的形式展現

告訴我們cookie的設定

響應體說白了，就是伺服器返回給我們的資料

我們點選 response 就可以看到相關的資料了

對於不同的請求

我們獲取到的資料是不一樣的

除了 html的，也有 json 的

二進位制資料等等

可以針對不同的情況

用不同的手段來解析這些資料

所謂抓包

就是我們摸清了瀏覽器裡面的套路

知道它是怎麼搞的

那麼通過我們的請求

get 請求也好

post 請求也罷

只要知道請求方式

只要知道請求引數

只要知道請求頭定義

只要知道怎麼拿到返回的資料

python爬蟲筆記01

精通python網路爬蟲筆記下面大部分來自此書，僅為本人筆記 urllib.request的使用以及將爬取內容儲存html檔案示例 import urllib.request url file urllib.request.urlopen url data file.read 讀取全部，賦予...

Python爬蟲學習01

由於自身對python有比較大的興趣，但是畢竟有業務需求才能推動學習在休息的時候看了幾天的基礎，對python的基礎還是可以掌握的，但是一些api的方法確實沒有多大興趣，畢竟乙個乙個api的學習python這種方法，於我而言，確實想睡覺，所以我想以乙個點帶面的學習python，爬蟲是python...

python爬蟲學習 01爬蟲介紹

前戲 1.你是否在節假日出行高峰的時候，想快速搶購火車票成功 2.你是否在網上購物的時候，想快速且精準的定位到口碑質量最好的商品什麼是爬蟲通過編寫程式，模擬瀏覽器上網，然後讓其去網際網路上抓取資料的過程。爬蟲的價值實際應用就業爬蟲究竟是合法還是違法的？如何在使用編寫爬蟲的過程中避免進入局子...

python爬蟲01在Chrome瀏覽器抓包

python爬蟲筆記01

Python爬蟲學習01

python爬蟲學習 01爬蟲介紹

相關推薦