對了解一些爬蟲的基本理念,掌握爬蟲爬取的流程有所幫助。入門之後,我們就需要學習一些更加高階的內容和工具來方便我們的爬取。那麼這一節來簡單介紹一下 requests 庫的基本用法利用 pip 安裝
pip install requests
req = requests.get("")
req = requests.post("")
req = requests.put("")
req = requests.delete("")
req = requests.head("")
req = requests.options("")
3.1 get請求
引數是字典,我們也可以傳遞json型別的引數:
import requests
from fake_useragent import useragent
headers =
url = ""
params =
response = requests.get(url, headers=headers, params=params)
print(response.text)
3.2 post請求
引數是字典,我們也可以傳遞json型別的引數:
import requests
from fake_useragent import useragent
headers =
params =
response = requests.post(login_url,headers=headers,data=params)
print(response.text)
3.3 自定義請求頭部偽裝請求頭部是採集時經常用的,我們可以用這個方法來隱藏:
headers =
r = requests.get('', headers = headers)
print(r.request.headers['user-agent'])
3.4 設定超時時間可以通過timeout屬性設定超時時間,一旦超過這個時間還沒獲得響應內容,就會提示錯誤
requests.get('', timeout=0.001)
3.5 **訪問採集時為避免被封ip,經常會使用**。requests也有相應的proxies屬性
from fake_useragent import useragent
import requests
url = ""
headers =
proxies =
response = requests.get(url,headers=headers,proxies=proxies)
print(response.text)
3.6 session自動儲存cookiesseesion的意思是保持乙個會話,比如 登陸後繼續操作(記錄身份資訊) 而requests是單次請求的請求,身份資訊不會被記錄
# 建立乙個session物件
s = requests.session()
# 用session物件發出get請求,設定cookies
s.get('')
3.7 ssl驗證# 禁用安全請求警告
requests.packages.urllib3.disable_warnings()
resp = requests.get(url, verify=false, headers=headers)
4 獲取響應資訊
**含義
resp.json()
獲取響應內容(以json字串)
resp.text
獲取響應內容 (以字串)
resp.content
獲取響應內容(以位元組的方式)
resp.headers
獲取響應頭內容
resp.url
獲取訪問位址
resp.encoding
獲取網頁編碼
resp.request.headers
請求頭內容
resp.cookie
獲取cookie
這個實驗分為兩個部分:
第一步操作:登入,這裡的登入是指遊客登入頁面
第二部操作:訪問需要登入才能訪問的頁面
from fake_useragent import useragent
import requests
# 第一步操作:登入
# 開啟session,建立乙個session物件, session會自動儲存cookie
session = requests.session()
headers =
params =
# 用session物件傳送post請求,並儲存cookie資訊,便於訪問頁面使用
response = session.post(login_url, headers=headers,data=params)
# 第二部操作:訪問頁面
resp = session.get(info_url, headers=headers)
print(resp.text)
Python爬蟲 Request模組
文章說明了request模組的意義,且強調了request模組使用更加方便。接下來介紹幾種常用的request操作,並且會在後續補充說明一些特定用法。匯入檔案 import requests一 請求 右邊為請求語句,返回值為response回應 r requests.get r requests.p...
python爬蟲利器 request庫
request庫比urllib2庫更為高階,因為其功能更強大,更易於使用。使用該庫可以十分方便我們的抓取。基本請求 r requests.get r requests.post r requests.put r requests.delete r requests.head r requests.o...
爬蟲 python(二)初識request
from urllib.request import urlopen 傳送請求,獲取伺服器給的響應 url response urlopen url 讀取結果,無法正常顯示中文 html response.read 進行解碼操作,轉為utf 8 html decode html.decode 列印結...