為了能夠通過爬蟲獲取到登入後的頁面,或者是解決通過cookie的反扒,需要使用request來處理cookie相關的請求
有3種方法:
import requests
headers =
requests.get(url, headers=headers)
cookie格式:
例:中的:
對比第一種,只是把cookie單獨提取出來,但如果cookie裡面有很多kv…寫不過來的,所有用第三種
使用request獲取的resposne物件,具有cookies屬性,能夠獲取對方伺服器設定在本地的cookie
response.cookies是cookiejar型別
使用requests.utils.dict_from_cookiejar,能夠實現把cookiejar物件轉化為字典
import requests
url =
""# 傳送請求,獲取resposne
r = requests.get(url)
print
(type
(r.cookies)
)# 使用方法從cookiejar中提取資料
cookies = requests.utils.dict_from_cookiejar(r.cookies)
print
(cookies)
結果類似這種: python爬蟲入門學習記錄
在使用爬蟲前確保requests和beautifulsoup4模組都已經安裝好了 pip install requests pip install beautifulsoup4 beautifulsoup4使用手冊 簡單的示列 import requests 匯入requests包 url strh...
Python入門學習筆記(網路爬蟲)
python 如何訪問網際網路?python把url和lib組合成乙個模組urllib在idle裡面可以搜尋 可以看到urllib有四個模組 測試使用urllib.request模組 import urllib.request response urllib.request.urlopen html...
Python爬蟲入門
今天看了菜鳥教程的python教程,準備做個小作業寫個爬蟲程式。其中主要涉及到基本語法 正規表示式 urllib和re兩個模組。import urllib 載入模組 import re defgethtml url page urllib.urlopen url html page.read ret...