Python爬蟲之模擬登陸知乎

在chrome瀏覽器下抓取登陸過程的包（注意把preserve log勾上）：

表單的結構主要包括_xsrf, password, phone_num

我們要找到_xsrf的值，重新載入zhihu.com之後我們可以發現response裡面有_xsrf

我們就可以把_xsrf的值讀取出來

然後set一下cookies，就可以模擬登陸知乎了。

import requests
from bs4 import beautifulsoup
zhihu_url = ''
headers = 
loginurl = ''
cookies = requests.post(loginurl, data = data, headers = headers).cookies
#login
url = ''
html = requests.get(url, headers = headers, cookies = cookies)
soup = beautifulsoup(html.content, 'html.parser')
titles = soup.select(r'.questionheader-title')
print('title: ', titles[0].text)

Python 爬蟲模擬登陸知乎

在之前寫過一篇使用python爬蟲爬取電影天堂資源的部落格，重點是如何解析頁面和提高爬蟲的效率。由於電影天堂上的資源獲取許可權是所有人都一樣的，所以不需要進行登入驗證操作，寫完那篇文章後又花了些時間研究了一下python模擬登陸，網上關於這部分的資料很多，很多demo都是登陸知乎的，原因是知乎的登陸...

python模擬登陸知乎

恢復內容開始在完成前面的階段的任務之後，我們現在已經能夠嘗試著去模擬登入一些了。在這裡我們模擬登入一下知乎做一下實驗。筆者在這裡總共用了三天多的時間，下面給大家分享一下筆者是怎麼一步一步的模擬登入成功的。也希望大家能夠吸取我的教訓。初步的模擬登入下面這段是筆者最初寫的，我們慢慢來看 impo...

HttpClient 模擬登陸知乎

最近做爬蟲相關工作，我們平時用httpwebrequest比較多，每乙個url都要建立乙個httpwebrequest例項，而且有些驗證比較複雜，在登陸及後續抓取資料的時候，每次請求需要把上次的cookie傳遞給這次請求。記得這篇部落格結尾,dudu總結了 httpclient最與眾不同的地方是...

Python爬蟲之模擬登陸知乎

Python 爬蟲模擬登陸知乎

python模擬登陸知乎

HttpClient 模擬登陸知乎

相關推薦