盡量不要用國產瀏覽器,很多是有後門的
chrome是首選
按下f12
element標籤下對應的html**
點選network,可以看到很多請求
http請求的方式有好幾種,get,post,put,delete,head,options,trace
不過最常見的就是get和post請求
get:
內容post:
資訊提交 註冊 登陸
post的引數不會直接放在url上,會以form表單的形式將資料提交給伺服器
可以發現,
get請求把請求引數都暴露在url上
而post請求的引數放在request body裡面
post請求方式還對密碼引數加了密
請求頭pequest header
我們在做 http 請求的時候
除了提交一些引數之外
我們還有定義一些 http 請求的頭部資訊
比如 accept、host、cookie、user-agent等等
這些引數也是我們在做爬蟲要用到
通過這些資訊,欺騙伺服器,告訴它我們是正規請求
比如我們可以在**裡面設定 cookie 告訴伺服器我們就是在這個瀏覽器請求的會話
user-agent 告訴伺服器我們是瀏覽器請求的
響應這些 404 啊,200啊,301啊,502啊
都是伺服器的響應碼
一般伺服器給我們返回 200
那就說明
我們成功請求了
響應頭這個頭主要是告訴我們資料以什麼樣的形式展現
告訴我們cookie的設定
響應體說白了,就是伺服器返回給我們的資料
我們點選 response 就可以看到相關的資料了
對於不同的請求
我們獲取到的資料是不一樣的
除了 html的,也有 json 的
二進位制資料等等
可以針對不同的情況
用不同的手段來解析這些資料
所謂抓包
就是我們摸清了瀏覽器裡面的套路
知道它是怎麼搞的
那麼通過我們的請求
get 請求也好
post 請求也罷
只要知道請求方式
只要知道請求引數
只要知道請求頭定義
只要知道怎麼拿到返回的資料
python爬蟲筆記01
精通python網路爬蟲 筆記 下面 大部分來自此書,僅為本人筆記 urllib.request的使用以及將爬取內容儲存html檔案 示例 import urllib.request url file urllib.request.urlopen url data file.read 讀取全部,賦予...
Python爬蟲學習01
由於自身對python有比較大的興趣,但是畢竟 有業務需求才能推動學習 在休息的時候看了幾天的基礎,對python的基礎還是可以掌握的,但是一些api的方法確實沒有多大興趣,畢竟乙個乙個api的學習python這種方法,於我而言,確實想睡覺,所以我想以乙個點帶面的學習python,爬蟲是python...
python爬蟲學習 01爬蟲介紹
前戲 1.你是否在節假日出行高峰的時候,想快速搶購火車票成功 2.你是否在網上購物的時候,想快速且精準的定位到口碑質量最好的商品 什麼是爬蟲 通過編寫程式,模擬瀏覽器上網,然後讓其去網際網路上抓取資料的過程。爬蟲的價值 實際應用 就業 爬蟲究竟是合法還是違法的?如何在使用編寫爬蟲的過程中避免進入局子...