爬蟲requests操作與網路常識需知

'''
1.使用瀏覽器訪問**
1.傳送請求
2.服務端接收請求
3.服務端返回響應
4.瀏覽器美化頁面給你看
2.使用爬蟲**模擬瀏覽器訪問**
1.傳送請求
2.服務端接收請求
3.服務端返回響應
4.爬蟲接收伺服器返回的響應通過**篩選出需要的資料並儲存到庫中
************
基於網路傳輸資料，都是二進位制
在python中也可以是bytes型別
************
'''pip3 install requests
# 匯入
import requests
# 使用
requests.get(url)
requests.post(url)
'''url
統一資源定位符（就是**）
網路上的資源很多，如何明確我們的目標呢，使用url明確目標
'''

規定了瀏覽器與服務端之間資料互動的各項原則 1.四個特性（此處劃重點） 1.給予tcp,ip協議作用於應用層之上的協議（忘了去看預科） 2.給予請求響應給予http互動資料的伺服器不會主動傳送資訊給你你先主動請求它才會響應你（妖豔賤貨） 3.無狀態不儲存使用者的狀態（遊客模式） 4.無/短連線互動後連線斷開（你不是她唯一，阿哲） 2.資料格式請求資料格式請求首行：請求方法，協議版本，告知以下內容 # 請求頭：包含了一大堆k:v鍵值對，用於說明請求方身份資訊，驗證資訊等（此處換行符）請求體：存放著賬號密碼敏感資訊（get請求資料不在這裡）響應資料格式響應首行：請求方法，協議版本，告知以下內容響應頭：包含了一大堆k:v鍵值對（此處換行符）響應體：瀏覽器展示出來的資料 3.響應狀態碼暗號啥的，代替文字說明你與服務端互動的狀態說明 1xx 服務端已經接受到資訊正在進行處理，可以繼續提交或等待 2xx 請求成功，服務端並返回了相應的響應 3xx 重定向，就是介面跳轉，會員才能繼續讓你登入啥的 4xx 403你沒有訪問許可權，404訪問的資源不存在 5xx 伺服器炸了昂 '''響應狀態碼很多公司有自己定製的獨有狀態碼看看b站的=-=

'''

**防止你白嫖，當然你肯定想繼續白嫖
1.校驗你是否是乙個瀏覽器
通過檢視請求頭是否有乙個標識你是乙個瀏覽器的k:v鍵值對
破解措施
就是在我們的請求頭中帶上上述的鍵值對即可
# **驗證是否是瀏覽器時，攜帶請求頭資料（小破站沒有可以直接搞）
res=requests.get(
'',)print(res)# 200
import requests
# 在請求頭中直接加入引數
res=requests.get(
'',params=,
)print(res) # 200

http協議四大特性中有乙個特性是無法儲存使用者狀態，但是我們現在很多軟體都需要儲存使用者狀態在開始階段所有訪問**的使用者都屬於遊客模式但是基於許可權使用者與**都對於身份驗證有需求 # cookie與session應運而生 cookie模式是指使用者進行登入操作與伺服器驗證之後，瀏覽器會儲存使用者資訊，之後每次與服務端互動代替使用者登入資訊操作，但是使用者的敏感資訊會存於瀏覽器中，安全性較低 sesion模式是瀏覽器與服務端互動後，服務端驗證後返回一串隨機字串，瀏覽器cookie記錄該字串用作身份資訊繼續與服務端做互動 # 無論是cook模式還是session模式都並非完全完全，在網際網路世界中沒有絕對的安全兩種模式都基於cookie，瀏覽器是可以設定拒絕cookie，可以幫好朋友搞乙個！！！

1.抄寫今日筆記(尤其是http協議和cookie與session) 針對cookie與session需要你們自己用自己的話描述 2.練習requests模組朝其他**傳送get請求獲取資源

爬蟲requests操作與網路常識需知

網路爬蟲（requests基本使用）

python網路爬蟲之requests庫

網路爬蟲之Requests庫入門

爬蟲requests操作與網路常識需知

網路爬蟲（requests基本使用）

python網路爬蟲之requests庫

網路爬蟲之Requests庫入門

相關推薦