pip install requests
[post cid="137" /]
pip install ddddocr
基礎使用方法:
print(res)官方詳細用法:
pip install fake_useragent
使用方法:
from fake_useragent import useragent
ua = useragent()
headers =
code:tree.xpath("//img[@id='imgcode']/@src")[0]
__viewstate:tree.xpath("//*[@id='__viewstate']/@value")[0]
__viewstategenerator:tree.xpath("//*[@id='__viewstategenerator']/@value")[0]
[post cid="139" /]
# 古詩文網模擬登入
import ddddocr # 驗證碼識別庫
import requests
from fake_useragent import useragent # 隨機useragent庫
from lxml import etree
ocr = ddddocr.ddddocr(old=true)
ua = useragent()
headers =
# 爬取驗證碼
# 登入主頁面(包含驗證碼)
yanzhen_url = ''
session = requests.session()
response = session.get(url=yanzhen_url, headers=headers)
# 爬取主頁面資料
yanzhen_page_text = response.content
yanzhen_tree = etree.html(yanzhen_page_text)
# 爬取驗證碼鏈結
code_url = '' + \
yanzhen_tree.xpath("//img[@id='imgcode']/@src")[0]
# 資料解析
view_statue = yanzhen_tree.xpath("//*[@id='__viewstate']/@value")[0]
view_state_generator = yanzhen_tree.xpath(
"//*[@id='__viewstategenerator']/@value")[0]
code_img_data = session.get(url=code_url, headers=headers).content
''''''
with open('驗證碼.jpg', 'wb') as fp:
fp.write(code_img_data)
# 驗證碼識別
code = ocr.classification(code_img_data)
login_url = ''
# 模擬登入
data =
response = session.post(url=login_url, data=data, headers=headers)
with open('登入後頁面.html', 'w', encoding='utf-8') as fp:
fp.write(response.text)
print(data)
print('登入請求狀態:',response.status_code)
如果登入後頁面開啟後不正確請檢查
驗證碼code是否和驗證碼.jpg中是否一致
登入請求狀態是否正常(200)
爬蟲之模擬登入總結
有些 需要 登入 後才能爬取所需要的資訊,此時可以設計爬蟲進行模擬登入,原理是利用瀏覽器cookie。一 瀏覽器訪問伺服器的過程 1 瀏覽器 客戶端 向web伺服器發出乙個http請求 http request 2 web伺服器收到請求,發回響應資訊 http response 3 瀏覽器解析內容呈...
python爬蟲cookie模擬登入
抓取需要登入才能訪問的頁面1 先登入成功1次,獲取到攜帶登陸資訊的cookie f12開啟控制台,在頁面輸入使用者名稱 密碼,登入成功,找到 home 一般在抓到位址的上面 2 攜帶著cookie發請求 cookie referer 源,代表你從 轉過來的 user agentimport requ...
python自動化之爬蟲模擬登入
from selenium import webdriver import time driver webdriver.phantomjs executable path r d phantomjs 2.1.1 windows phantomjs 2.1.1 windows bin phantomj...