#識別人人網中的驗證碼
from lxml import etree
from urllib import request
url = ''
headers =
page_text = requests.get(url=url,headers=headers).text
#解析驗證碼
#登入login_url = 'ajaxlogin/login?1=1&uniquetimestamp=201924831467'
data =
#建立乙個session物件
session = requests.session()
#使用session進行請求的傳送:獲取cookie,且將cookie儲存到session中
session.post(url=login_url,data=data,headers=headers)
#獲取個人主頁對應的頁面資料
detail_url = '289676607/profile'
#該次請求傳送是就已經攜帶了cookie
page_text = session.get(url=detail_url,headers=headers).text
with open('./renren.html','w',encoding='utf-8') as fp:
fp.write(page_text)
#對古詩文網進行模擬登入
from lxml import etree
from urllib import request
headers =
session = requests.session()
#獲取驗證碼
#執行登入
Cookie的使用 爬蟲
在訪問網際網路頁面時,通過無狀態協議 無法維持會話之間的狀態 http進行。例如 我們訪問需要登入的 可以通過兩種方式儲存登入狀態。1 cookie儲存會話資訊,儲存在客戶端。2 session儲存會話資訊,儲存在服務端。通過服務端給客戶端發sessionid等資訊,這些資訊一般儲存在客戶端的 co...
網路爬蟲與cookie簡介
1 web爬蟲是一種機械人,她們會遞迴對各種資訊性web站點進行遍歷,獲取第乙個web頁面,然後獲取那個頁面指向的所有頁面,然後是那些web頁面指向的所有頁面。以此類推,遞迴地追蹤這些web鏈結的機械人會沿著html超連結建立的網路爬行,所以將其稱為爬蟲。2 web站點與robot.txt 如果乙個...
python爬蟲 cookie的使用
在做登入的post請求時,需要記住cookie,否則不能訪問登入後的頁面。下面是登入的 postdata urllib.parse.urlencode encode utf 8 使用urlencode編碼處理後,再設定為utf 8編碼header req urllib.request.request...