Python爬蟲requests庫的使用教程

2021-10-25 12:42:40 字數 2839 閱讀 7729

對了解一些爬蟲的基本理念,掌握爬蟲爬取的流程有所幫助。入門之後,我們就需要學習一些更加高階的內容和工具來方便我們的爬取。那麼這一節來簡單介紹一下 requests 庫的基本用法

利用 pip 安裝

pip install requests
req = requests.get("")

req = requests.post("")

req = requests.put("")

req = requests.delete("")

req = requests.head("")

req = requests.options("")

3.1 get請求

引數是字典,我們也可以傳遞json型別的引數:

import requests

from fake_useragent import useragent

headers =

url = ""

params =

response = requests.get(url, headers=headers, params=params)

print(response.text)

3.2 post請求

引數是字典,我們也可以傳遞json型別的引數:

import requests

from fake_useragent import useragent

headers =

params =

response = requests.post(login_url,headers=headers,data=params)

print(response.text)

3.3 自定義請求頭部
偽裝請求頭部是採集時經常用的,我們可以用這個方法來隱藏:

headers = 

r = requests.get('', headers = headers)

print(r.request.headers['user-agent'])

3.4 設定超時時間
可以通過timeout屬性設定超時時間,一旦超過這個時間還沒獲得響應內容,就會提示錯誤

requests.get('', timeout=0.001)
3.5 **訪問
採集時為避免被封ip,經常會使用**。requests也有相應的proxies屬性

from fake_useragent import useragent

import requests

url = ""

headers =

proxies =

response = requests.get(url,headers=headers,proxies=proxies)

print(response.text)

3.6 session自動儲存cookies
seesion的意思是保持乙個會話,比如 登陸後繼續操作(記錄身份資訊) 而requests是單次請求的請求,身份資訊不會被記錄

# 建立乙個session物件 

s = requests.session()

# 用session物件發出get請求,設定cookies

s.get('')

3.7 ssl驗證
# 禁用安全請求警告

requests.packages.urllib3.disable_warnings()

resp = requests.get(url, verify=false, headers=headers)

4 獲取響應資訊

**含義

resp.json()

獲取響應內容(以json字串)

resp.text

獲取響應內容 (以字串)

resp.content

獲取響應內容(以位元組的方式)

resp.headers

獲取響應頭內容

resp.url

獲取訪問位址

resp.encoding

獲取網頁編碼

resp.request.headers

請求頭內容

resp.cookie

獲取cookie

這個實驗分為兩個部分:

第一步操作:登入,這裡的登入是指遊客登入頁面

第二部操作:訪問需要登入才能訪問的頁面

from fake_useragent import useragent

import requests

# 第一步操作:登入

# 開啟session,建立乙個session物件, session會自動儲存cookie

session = requests.session()

headers =

params =

# 用session物件傳送post請求,並儲存cookie資訊,便於訪問頁面使用

response = session.post(login_url, headers=headers,data=params)

# 第二部操作:訪問頁面

resp = session.get(info_url, headers=headers)

print(resp.text)

Python爬蟲 Request模組

文章說明了request模組的意義,且強調了request模組使用更加方便。接下來介紹幾種常用的request操作,並且會在後續補充說明一些特定用法。匯入檔案 import requests一 請求 右邊為請求語句,返回值為response回應 r requests.get r requests.p...

python爬蟲利器 request庫

request庫比urllib2庫更為高階,因為其功能更強大,更易於使用。使用該庫可以十分方便我們的抓取。基本請求 r requests.get r requests.post r requests.put r requests.delete r requests.head r requests.o...

爬蟲 python(二)初識request

from urllib.request import urlopen 傳送請求,獲取伺服器給的響應 url response urlopen url 讀取結果,無法正常顯示中文 html response.read 進行解碼操作,轉為utf 8 html decode html.decode 列印結...