**:
在用爬蟲爬取**資料時,有些站點的一些關鍵資料的獲取需要使用賬號登入,這裡可以使用requests傳送登入請求,並用session物件來自動處理相關cookie。
另外在登入時,有些**有時會要求輸入驗證碼,比較簡單的驗證碼可以直接用pytesser來識別,複雜的驗證碼可以依據相應的特徵自己採集資料訓練分類器。
具體**如
下:
#coding:utf-8
validate_code_err = '驗證碼錯誤'
usr_pass_err = '帳戶名或登入密碼不正確,請重新輸入'
try_later_err = '登入失敗連續超過5次,請10分鐘後再試'
if err[:5] == validate_code_err[:5]:
pass
elif err[:5] == usr_pass_err[:5]:
return false
elif err[:5] == try_later_err[:5]:
return false
else:
return true
if __name__ == '__main__':
main(sys.argv[1], sys.argv[2], 0)
python自動化之爬蟲模擬登入
from selenium import webdriver import time driver webdriver.phantomjs executable path r d phantomjs 2.1.1 windows phantomjs 2.1.1 windows bin phantomj...
python爬蟲之模擬登入
pip install requests post cid 137 pip install ddddocr基礎使用方法 print res 官方詳細用法 pip install fake useragent使用方法 from fake useragent import useragent ua us...
Python爬蟲之自動建立請求物件
from urllib import request import re url r 建立自定義請求物件 req request.request url pat r 傳送請求 reponse request.urlopen req read decode data re.findall pat,re...