步驟:
1、獲取session會話。
2、獲取表單,表單的獲取需要試錯,即隨便輸入賬號、密碼、(驗證碼)然後登入,再取network裡面找有form data(表單)的檔案,拿到url,作為login函式的url,即表單實際的提交**。
3、獲取驗證碼,驗證碼的獲取可以直接從network裡面的驗證碼url獲取,如果後面有時間戳,則刪去時間戳。
注:由於是學校的系統,外網可能進不去,主要是為了記錄學習爬蟲的過程而已,沒有其他目的。
**如下:
#!/usr/bin/env python
# -*- coding: utf-8 -*-
# @time : 2017/12/13 21:23
# @author : tsunghan lee
# @file : oral_login.py
#!/usr/bin/env python
# -*- coding: utf-8 -*-
# @time : 2017/12/12 20:38
# @author : tsunghan lee
# @file : login.py
import requests
import time
defstart_ses
():"""
獲取session會話
"""ses = requests.session()
return ses
deflogin
(ses,username_,pwd,vc):
ses.cookies.update()
data=
url = ''
res = ses.post(url,data)
time.sleep(1)
header =
"""以下為帶獲取的json資訊
"""for i in range(3):
print(result)
defget_vcode
(ses):
url =''
headers =
res = requests.get(url,headers=headers)
with open('vcode.jpeg','wb') as f:
f.write(res.content)
defmain
(ses,username,pwd):
get_vcode(ses)
vc = input('vc:')
login(ses,username,pwd,vc)
if __name__ == '__main__':
ses = start_ses()
username = '2********4'
pwd = '******'
main(ses,username,pwd)
執行結果:
python爬取學校新聞
這是我做的第乙個python爬蟲專案,在這裡與大家分享出來 目標 下面展示一下我的 import requests from bs4 import beautifulsoup sessions requests.session i 1 對應第1頁資訊 page str i if i 1 newsma...
python3爬取電影資料
爬取電影票房資料,用於統計建模分析。目標 為電影票房資料庫 基本的爬取靜態 的技術,模擬登陸使用的是最簡單的cookies。這種模擬登陸的方式雖然簡單但有很大的侷限性,時效性比較短,也許兩三天後就失效了,或者網頁改版一點也會導致失效。最好的方式還是找到登陸頁面,獲取需要提交的資料和提交方式,模擬我們...
python3 小說爬取案例
爬取 具體書籍 res requests.get url,headers header 爬取網頁 web res.text 獲得網頁文字格式 正則匹配方法 匹配除了空格和換行之外的字元 s s 上面的匹配方法無效的時候用這個匹配全部的字元,再用上面的方法進行匹配。具體應用舉例 pattern4 re...