使用Python的Requests包模擬登陸

2021-08-02 07:43:37 字數 2617 閱讀 8355

前段時間喜歡用python去抓一些頁面玩,但都基本上都是用get請求一些頁面,再通過正則去過濾。

今天試了一下,模擬登陸個人**。發現也比較簡單。讀懂本文需要對http協議和http會話有一定的理解。

註明:因為模擬登陸的是我的個人**,所以以下**對個人**和賬號密碼做了處理。

爬蟲的必備第一步,分析目標**。這裡使用谷歌瀏覽器的開發者者工具分析。

通過登陸抓取,看到這樣乙個請求。

上方部分為請求頭,下面部分為請求是傳的引數。由可以看出,頁面通過表單提交了三個引數。分別為_csrf,usermane,password。

其中csrf是為了預防跨域指令碼偽造。原理很簡單,就是每一次請求,伺服器生成一串加密字串。放在隱藏的input表單中。再一次請求的時候,把這個字串一起傳過去,為了驗證是否為同乙個使用者的請求。

因此,我們的**邏輯就有了。首先請求一次登入頁面。然後分析頁面,拿到csrf字串。最後把這個字串和賬號密碼一起傳給伺服器用來登入。

#!/usr/bin/env python2.7

# -*- coding: utf-8 -*-

import requests

import re

# 頭部資訊

headers =

# 登陸方法

deflogin

(url,csrf):

data =

response = requests.post(url, data=data, headers=headers)

return response.content

# 第一次訪問獲取csrf值

**看起來好像沒有什麼問題。然而執行的時候出錯了。核查了一下,錯誤的原因是,csrf驗證失敗!

再多次確認獲取的csrf和請求登入的csrf字串沒問題了之後,我想到了乙個問題。

如果,大家還不知道錯誤原因的話,這裡可以暫停思考乙個問題。「伺服器如何知道,第一次請求獲取csrf和第二次post登入請求是同乙個使用者?」

http協議是乙個種無狀態的協議。為了使這種無狀態變得有狀態,因此引進了會話。簡單的講,通過session去記錄這個狀態。當乙個使用者第一次請求web服務的時候,伺服器會生成乙個session,用於儲存這個使用者的資訊。同時,在返回給使用者端時,把這個sessionid儲存在cookies裡。當使用者再一次請求的時候,瀏覽器會把這個cookies帶上。因此在伺服器端就能知道多次請求是否為同乙個使用者。

因此我們的**,需要在第一次請求的時候拿到這個sessionid。第二次請求的時候把這個sessionid一起傳過去。而requests厲害的地方就是,一句簡單requests.session(),就能使用這個會話物件。

#!/usr/bin/env python2.7

# -*- coding: utf-8 -*-

import requests

import re

# 頭部資訊

headers =

# 登陸方法

deflogin

(url,csrf,r_session):

data =

response = r_session.post(url, data=data, headers=headers)

return response.content

# 第一次訪問獲取csrf值

成功獲取登陸後的頁面

由**可以知道,requests.session()啟動會話物件後,第二次請求會自動把上一次的sessionid一起傳過去。

Python爬蟲 HTTP協議 Requests庫

http協議 http hypertext transfer protocol 即超文字傳輸協議。url是通過http協議訪問資源的internet路徑,乙個url對應乙個資料資源。http協議對資源的操作 requests庫提供了http所有的基本請求方式。官方介紹 requests庫的6個主要方...

python 爬蟲系列02 認識 requests

本系列所有文章基於 python3.5.2 requests 是基於 urllib 的三方模組,相比於 uillib,操作更簡潔,功能更強大,而且支援 python3 getimport requests r requests.get url print r.status code print r....

python小白學習記錄 爬蟲requests篇

一 引用庫 import requests 二 請求訪問url,網頁相應 res requests.get 網頁位址 三 表明返回內容 目前返回的response物件有四種屬性 status code 檢查請求是否成功 content 將資料轉換為二進位制資料 text 將資料轉換為字串型資料 en...