在chrome瀏覽器下抓取登陸過程的包(注意把preserve log勾上):
表單的結構主要包括_xsrf, password, phone_num
我們要找到_xsrf的值,重新載入zhihu.com之後我們可以發現response裡面有_xsrf
我們就可以把_xsrf的值讀取出來
然後set一下cookies,就可以模擬登陸知乎了。
import requests
from bs4 import beautifulsoup
zhihu_url = ''
headers =
loginurl = ''
cookies = requests.post(loginurl, data = data, headers = headers).cookies
#login
url = ''
html = requests.get(url, headers = headers, cookies = cookies)
soup = beautifulsoup(html.content, 'html.parser')
titles = soup.select(r'.questionheader-title')
print('title: ', titles[0].text)
Python 爬蟲模擬登陸知乎
在之前寫過一篇使用python爬蟲爬取電影天堂資源的部落格,重點是如何解析頁面和提高爬蟲的效率。由於電影天堂上的資源獲取許可權是所有人都一樣的,所以不需要進行登入驗證操作,寫完那篇文章後又花了些時間研究了一下python模擬登陸,網上關於這部分的資料很多,很多demo都是登陸知乎的,原因是知乎的登陸...
python模擬登陸知乎
恢復內容開始 在完成前面的階段的任務之後,我們現在已經能夠嘗試著去模擬登入一些 了。在這裡我們模擬登入一下知乎做一下實驗。筆者在這裡總共用了三天多的時間,下面給大家分享一下筆者是怎麼一步一步的模擬登入成功的。也希望大家能夠吸取我的教訓。初步的模擬登入 下面這段 是筆者最初寫的,我們慢慢來看 impo...
HttpClient 模擬登陸知乎
最近做爬蟲相關工作,我們平時用httpwebrequest比較多,每乙個url都要建立乙個httpwebrequest例項,而且有些 驗證比較複雜,在登陸及後續抓取資料的時候,每次請求需要把上次的cookie傳遞給這次請求。記得這篇部落格 結尾,dudu總結了 httpclient最與眾不同的地方是...