pytho3.4
requests.get
request.post
requests.session
1 通過瀏覽器f12開發者工具,找到登入時提交的表單以及請求的url
注意請求的url不是瀏覽器網域名稱框的url
因為知乎改了,現在不需要驗證碼了,所以中少了驗證碼的引數,不過**裡是有的
2 設計到登入等會跳轉的頁面,推薦使用火狐瀏覽器,然後開啟持續日誌功能
3具體實現見**
__author__ = 'guo'
# coding:utf-8
import requests
from bs4 import beautifulsoup
# 解決編碼問題
try:
from io import bytesio as stringio
except importerror:
try:
from cstringio import stringio
except importerror:
from io import stringio
deflogin
(): header =
session = requests.session() # 處理cookie
res = session.get('',headers = header) # seesionh會記下訪問驗證碼的cookie
fp.write(res.content) # 講驗證碼儲存在本地。
# print(res.content)
#print(res.cookies)
# cook = res.cookies
capt = input('input captcha') # 手動讀取
xsrf = beautifulsoup(session.get('').content).find('input', attrs=)['value'] # 從原始碼中獲取的表單中的乙個字段
print(xsrf)
data =
response = session.post('',data = data,headers = header ) # post 登入時提交的表單,此時session中是儲存了此時的cookie 的
print(response.status_code)
print(response.content.decode('utf-8'))
html = session.get('') # 再次訪問,由於cookie 的存在,記下了登入的狀態,所以此時就可以獲取我們登入之後的類容了啦。
print(html.content.decode('utf-8'))
if __name__ == '__main__':
login()
python 爬蟲 知乎
人生苦短,唯有python 是不是 寫多了自己就熟練了呢?人人網爬蟲模板,具體操作以後有機會再新增吧!coding utf 8 import urllib2 import urllib import cookielib import re def zhihubrower url,user,passw...
Python3 爬蟲(四) 登入知乎
有些 需要使用者登入,利用python實現知乎 的模擬登入。用cookies記錄登入資訊,然後就可以抓取登入之後才能看到的資訊。開啟工具fiddler,在瀏覽器中訪問 中就能看到捕捉到的所有連線資訊。在左側選擇登入的那一條 觀察右側,開啟 inspactors 透檢視,上方是該條連線的請求報文資訊,...
知乎首頁爬蟲
嘗試了一下知乎首頁爬蟲 import re import requests from urllib import parse 首頁鏈結 headers resp requests.get headers headers print resp.text urls re.findall content ...