python爬蟲之requests 模組基礎

2021-10-19 13:53:05 字數 1230 閱讀 7640

requests模組是python第三方模組,需要進行安裝後才能夠進行使用,主要功能為發起http請求,為爬蟲中常用的模組。

安裝命令

pip install requests
from requests import *  //匯入requests 模組

resp = get("") //發起最簡單的http get請求。

header = //設定http請求頭,避免被識別為爬蟲,封掉ip位址

payload = //設定請求引數,在get請求中也可以直接拼接到url中。

cookie = //設定cookie

resp = get(url="", headers=header,params=payload,cookies=cookie,verify=fales,timeout=5) //完成的一次請求。

//verify=false 處理證書驗證失敗,請求丟擲sslerror的情況,錯誤資訊為 requests.exceptions.sslerror: ***

post傳送請求

resp = post(url="", data=payload) //引數使用data傳遞

resp = post(url="", data=json.dumps(payload))//傳遞json時可以使用json模組的json.dumps()轉譯成json格式

resp = post(url="", json=payload //這種格式來確定。

requests模組支援傳送get,post,put,delete等各種http請求,整體而言請求格式大同小異,整體相同。

post請求時content-type的內容,除了特殊情況外,其實在實際操作中也並不會有多大影響。

multipart/form-data //一般使用來上傳檔案

resp.content //二進位制格式的內容主題,可以使用resp.content.decode("utf-8"),不容易出現亂碼。

resp.text //返回內容主題

resp.status_code //返回的狀態碼

resp.encoding //返回的編碼格式,

resp.url //請求的url,若存在跳轉,則url是跳轉後的url的值。

resp.headers //返回的響應頭資訊。

Python爬蟲 HTTP協議 Requests庫

http協議 http hypertext transfer protocol 即超文字傳輸協議。url是通過http協議訪問資源的internet路徑,乙個url對應乙個資料資源。http協議對資源的操作 requests庫提供了http所有的基本請求方式。官方介紹 requests庫的6個主要方...

python 爬蟲系列02 認識 requests

本系列所有文章基於 python3.5.2 requests 是基於 urllib 的三方模組,相比於 uillib,操作更簡潔,功能更強大,而且支援 python3 getimport requests r requests.get url print r.status code print r....

python小白學習記錄 爬蟲requests篇

一 引用庫 import requests 二 請求訪問url,網頁相應 res requests.get 網頁位址 三 表明返回內容 目前返回的response物件有四種屬性 status code 檢查請求是否成功 content 將資料轉換為二進位制資料 text 將資料轉換為字串型資料 en...