# 前提:# # 通常,很多**需要登入才能進行瀏覽,所以在爬取這些**時,也需要進行登入,並拿取登入時的cookie
# # 登入網頁,伺服器會給客戶端乙個牌子cookie
# # 訪問登入頁面時,帶著牌子進行請求才能返回響應
# # 登入介面的爬取
# 做法:
# 找到牌子,帶著牌子進行請求
# cookie有的在請求頭里
# 如下是在登入後的頁面中找到請求頭里的cookie,然後進行請求,訪問其含登陸資訊的頁面
import urllib.request
import urllib.parse
#將帶cookie請求頭資訊新增到請求物件中取
headers =
#需要登入驗證的網頁**
url = ""
request = urllib.request.request(url,headers=headers)
response = urllib.request.urlopen(request)
with open("renren.html","wb")as tf:
tf.write(response.read())
tf.close()
# 如下是在登入時就直接抓取登入時伺服器給的cookie資料,然後在之後訪問其他需要登入驗證的網頁時帶著cookie進行訪問就行了
網路爬蟲學習(八)
本期來學習下正規表示式,之前學習了requests模組 模組相比urllib模組,在很多方面都顯得非常簡潔,可以說是urllib模組的乙個昇華。那麼什麼是正規表示式呢?簡單來說,正規表示式是對字串操作的一種邏輯公式,就是事先定義好的一些特定字元 及這些特定字元的組合,組成乙個 規則字串 這個 規則字...
網頁中的cookie
cookie 的用途之一是儲存使用者在特定 上的密碼和 id。cookie是當你瀏覽某 時,儲存在你機器上的乙個小文字檔案,它記錄了你的使用者id,密碼 瀏覽過的網頁 停留的時間等資訊,當你再次來到該 時,通過讀取cookie,得知你的相關資訊,就可以做出相應的動作,如在頁面顯示歡迎你的標語,或者讓...
Cookie的使用 爬蟲
在訪問網際網路頁面時,通過無狀態協議 無法維持會話之間的狀態 http進行。例如 我們訪問需要登入的 可以通過兩種方式儲存登入狀態。1 cookie儲存會話資訊,儲存在客戶端。2 session儲存會話資訊,儲存在服務端。通過服務端給客戶端發sessionid等資訊,這些資訊一般儲存在客戶端的 co...