Python爬蟲之自動登入與驗證碼識別

2021-07-23 09:07:19 字數 2505 閱讀 4454

**:

在用爬蟲爬取**資料時,有些站點的一些關鍵資料的獲取需要使用賬號登入,這裡可以使用requests傳送登入請求,並用session物件來自動處理相關cookie。

另外在登入時,有些**有時會要求輸入驗證碼,比較簡單的驗證碼可以直接用pytesser來識別,複雜的驗證碼可以依據相應的特徵自己採集資料訓練分類器。

具體**如

下:

#coding:utf-8

validate_code_err = '驗證碼錯誤'

usr_pass_err = '帳戶名或登入密碼不正確,請重新輸入'

try_later_err = '登入失敗連續超過5次,請10分鐘後再試'

if err[:5] == validate_code_err[:5]:

pass

elif err[:5] == usr_pass_err[:5]:

return false

elif err[:5] == try_later_err[:5]:

return false

else:

return true

if __name__ == '__main__':

main(sys.argv[1], sys.argv[2], 0)

python自動化之爬蟲模擬登入

from selenium import webdriver import time driver webdriver.phantomjs executable path r d phantomjs 2.1.1 windows phantomjs 2.1.1 windows bin phantomj...

python爬蟲之模擬登入

pip install requests post cid 137 pip install ddddocr基礎使用方法 print res 官方詳細用法 pip install fake useragent使用方法 from fake useragent import useragent ua us...

Python爬蟲之自動建立請求物件

from urllib import request import re url r 建立自定義請求物件 req request.request url pat r 傳送請求 reponse request.urlopen req read decode data re.findall pat,re...