'''
1.使用瀏覽器訪問**
1.傳送請求
2.服務端接收請求
3.服務端返回響應
4.瀏覽器美化頁面給你看
2.使用爬蟲**模擬瀏覽器訪問**
1.傳送請求
2.服務端接收請求
3.服務端返回響應
4.爬蟲接收伺服器返回的響應通過**篩選出需要的資料並儲存到庫中
************
基於網路傳輸資料,都是二進位制
在python中也可以是bytes型別
************
'''pip3 install requests
# 匯入
import requests
# 使用
requests.get(url)
requests.post(url)
'''url
統一資源定位符(就是**)
網路上的資源很多,如何明確我們的目標呢,使用url明確目標
'''
規定了瀏覽器與服務端之間資料互動的各項原則
1.四個特性(此處劃重點)
1.給予tcp,ip協議作用於應用層之上的協議(忘了去看預科)
2.給予請求響應
給予http互動資料的伺服器不會主動傳送資訊給你
你先主動請求它才會響應你(妖豔賤貨)
3.無狀態
不儲存使用者的狀態(遊客模式)
4.無/短連線
互動後連線斷開(你不是她唯一,阿哲)
2.資料格式
請求資料格式
請求首行: 請求方法,協議版本,告知以下內容
# 請求頭: 包含了一大堆k:v鍵值對,用於說明請求方身份資訊,驗證資訊等
(此處換行符)
請求體: 存放著賬號密碼敏感資訊(get請求資料不在這裡)
響應資料格式
響應首行: 請求方法,協議版本,告知以下內容
響應頭: 包含了一大堆k:v鍵值對
(此處換行符)
響應體: 瀏覽器展示出來的資料
3.響應狀態碼
暗號啥的,代替文字說明你與服務端互動的狀態說明
1xx 服務端已經接受到資訊正在進行處理,可以繼續提交或等待
2xx 請求成功,服務端並返回了相應的響應
3xx 重定向,就是介面跳轉,會員才能繼續讓你登入啥的
4xx 403你沒有訪問許可權,404訪問的資源不存在
5xx 伺服器炸了昂
'''響應狀態碼很多公司有自己定製的獨有狀態碼
看看b站的=-=
'''
**防止你白嫖,當然你肯定想繼續白嫖
1.校驗你是否是乙個瀏覽器
通過檢視請求頭是否有乙個標識你是乙個瀏覽器的k:v鍵值對
破解措施
就是在我們的請求頭中帶上上述的鍵值對即可
# **驗證是否是瀏覽器時,攜帶請求頭資料(小破站沒有可以直接搞)
res=requests.get(
'',)print(res)# 200
import requests
# 在請求頭中直接加入引數
res=requests.get(
'',params=,
)print(res) # 200
http協議四大特性中有乙個特性是無法儲存使用者狀態,但是我們現在很多軟體都需要儲存使用者狀態
在開始階段所有訪問**的使用者都屬於遊客模式
但是基於許可權使用者與**都對於身份驗證有需求
# cookie與session應運而生
cookie模式是指使用者進行登入操作與伺服器驗證之後,瀏覽器會儲存使用者資訊,之後每次與服務端互動代替使用者登入資訊操作,但是使用者的敏感資訊會存於瀏覽器中,安全性較低
sesion模式是瀏覽器與服務端互動後,服務端驗證後返回一串隨機字串,瀏覽器cookie記錄該字串用作身份資訊繼續與服務端做互動
# 無論是cook模式還是session模式都並非完全完全,在網際網路世界中沒有絕對的安全
兩種模式都基於cookie,瀏覽器是可以設定拒絕cookie,可以幫好朋友搞乙個!!!
1.抄寫今日筆記(尤其是http協議和cookie與session)
針對cookie與session需要你們自己用自己的話描述
2.練習requests模組
朝其他**傳送get請求獲取資源
網路爬蟲(requests基本使用)
get請求型別 總覽 import requests url www.com params headers verif true proxies auth username password timeout 10r requests.get url,params params,headers hea...
python網路爬蟲之requests庫
import requests1 requests庫有兩個物件,request物件和response物件,下表是response物件的屬性 屬性說明 r.status code http請求的返回狀態,200表示連線成功,404表示失敗 r.text http響應內容的字串形式,即,url對應的頁面...
網路爬蟲之Requests庫入門
requests庫是python中用於網路爬蟲的較為簡單的庫。其中語法格式如下 r requests.get url,params none kwargs 1 構造乙個向伺服器請求資源的request物件,包含爬蟲返回的去不得內容 2 返回乙個包含伺服器資源的response物件 url 你獲取頁面...