Python爬蟲requests庫的使用教程

對了解一些爬蟲的基本理念，掌握爬蟲爬取的流程有所幫助。入門之後，我們就需要學習一些更加高階的內容和工具來方便我們的爬取。那麼這一節來簡單介紹一下 requests 庫的基本用法

利用 pip 安裝

pip install requests

req = requests.get("")
req = requests.post("")
req = requests.put("")
req = requests.delete("")
req = requests.head("")
req = requests.options("")

3.1 get請求

引數是字典，我們也可以傳遞json型別的引數：

import requests
from fake_useragent import useragent
headers = 
url = ""
params = 
response = requests.get(url, headers=headers, params=params)
print(response.text)

3.2 post請求

引數是字典，我們也可以傳遞json型別的引數：

import requests
from fake_useragent import useragent
headers = 
params = 
response = requests.post(login_url,headers=headers,data=params)
print(response.text)

3.3 自定義請求頭部

偽裝請求頭部是採集時經常用的，我們可以用這個方法來隱藏：

headers = 
r = requests.get('', headers = headers)
print(r.request.headers['user-agent'])

3.4 設定超時時間

可以通過timeout屬性設定超時時間，一旦超過這個時間還沒獲得響應內容，就會提示錯誤

requests.get('', timeout=0.001)

3.5 **訪問

採集時為避免被封ip，經常會使用**。requests也有相應的proxies屬性

from fake_useragent import useragent
import requests
url = ""
headers = 
proxies = 
response = requests.get(url,headers=headers,proxies=proxies)
print(response.text)

3.6 session自動儲存cookies

seesion的意思是保持乙個會話，比如登陸後繼續操作(記錄身份資訊) 而requests是單次請求的請求，身份資訊不會被記錄

# 建立乙個session物件 
s = requests.session() 
# 用session物件發出get請求，設定cookies 
s.get('')

3.7 ssl驗證

# 禁用安全請求警告
requests.packages.urllib3.disable_warnings()
resp = requests.get(url, verify=false, headers=headers)

4 獲取響應資訊

**含義

resp.json()

獲取響應內容（以json字串）

resp.text

獲取響應內容 (以字串)

resp.content

獲取響應內容（以位元組的方式）

resp.headers

獲取響應頭內容

resp.url

獲取訪問位址

resp.encoding

獲取網頁編碼

resp.request.headers

請求頭內容

resp.cookie

獲取cookie

這個實驗分為兩個部分:

第一步操作：登入，這裡的登入是指遊客登入頁面

第二部操作：訪問需要登入才能訪問的頁面

from fake_useragent import useragent
import requests
# 第一步操作:登入
# 開啟session,建立乙個session物件, session會自動儲存cookie
session = requests.session()
headers = 
params = 
# 用session物件傳送post請求,並儲存cookie資訊,便於訪問頁面使用
response = session.post(login_url, headers=headers,data=params)
# 第二部操作:訪問頁面
resp = session.get(info_url, headers=headers)
print(resp.text)

Python爬蟲 Request模組

文章說明了request模組的意義，且強調了request模組使用更加方便。接下來介紹幾種常用的request操作，並且會在後續補充說明一些特定用法。匯入檔案 import requests一請求右邊為請求語句，返回值為response回應 r requests.get r requests.p...

python爬蟲利器 request庫

request庫比urllib2庫更為高階，因為其功能更強大，更易於使用。使用該庫可以十分方便我們的抓取。基本請求 r requests.get r requests.post r requests.put r requests.delete r requests.head r requests.o...

爬蟲 python（二）初識request

from urllib.request import urlopen 傳送請求，獲取伺服器給的響應 url response urlopen url 讀取結果,無法正常顯示中文 html response.read 進行解碼操作，轉為utf 8 html decode html.decode 列印結...

Python爬蟲requests庫的使用教程

Python爬蟲 Request模組

python爬蟲利器 request庫

爬蟲 python（二）初識request

相關推薦