基本的指令碼語言是python,雖然不敢說是最好的語言,至少是最好的之一(0.0),用模擬登陸,我們需要用到多個模組,如下:
requests
beautifulsoup
安裝
git clone git:
cd requests
pip install .
pip
pip install requests
介紹
beautiful soup 是乙個可以從html或xml檔案中提取資料的python庫.它能夠通過你喜歡的轉換器實現慣用的文件導航,查詢,修改文件的方式.beautiful soup會幫你節省數小時甚至數天的工作時間.
安裝
easy_install beautifulsoup4
pip install beautifulsoup4
使用from bs4 import beautifulsoup
soup = beautifulsoup(open("index.html"))
soup = beautifulsoup("data", 'lxml')
requests主要是為了利用requests的高階會話機制,requests的會話物件可以讓我們跨請求保持某些引數,比如cookies, headers等,
會話物件讓你能夠跨請求保持某些引數。它也會在同乙個 session 例項發出的所有請求之間保持 cookie, 期間使用 urllib3 的 connection pooling 功能。所以如果你向同一主機傳送多個請求,底層的 tcp 連線將會被重用,從而帶來顯著的效能提公升。而beautifulsoup主要是方便解析html原始碼,從中獲取請求需要的一些引數
# -*- coding: utf-8 -*-
from bs4 import beautifulsoup
import requests
s = requests.session()
class csdn:
def __init__(self, username, password):
self.username = username
self.password = password
self.login_url = ''
self.headers =
def login(self):
params =
html = s.get(self.login_url, params=params, headers=self.headers)
soup = beautifulsoup(html.content, 'lxml')
lt = soup.select('input[name="lt"]')[0].get('value')
execution = soup.select('input[name="execution"]')[0].get('value')
event_id = soup.select('input[name="_eventid"]')[0].get('value')
data =
r = s.post(self.login_url, data=data)
self.headers['referer'] = ''
resp = s.get('', headers=self.headers)
print(resp.text)
username = input('請輸入賬號:')
password = input('請輸入密碼:')
cs = csdn(username, password)
cs.login()
吐槽qq群:173318043
Python爬蟲模擬登陸豆瓣
coding utf 8 import requests,re from pil import image class doubanspider object def init self self.session requests.session def login self,username,pa...
Python爬蟲之模擬登陸知乎
在chrome瀏覽器下抓取登陸過程的包 注意把preserve log勾上 表單的結構主要包括 xsrf,password,phone num 我們要找到 xsrf的值,重新載入zhihu.com之後我們可以發現response裡面有 xsrf 我們就可以把 xsrf的值讀取出來 然後set一下co...
python爬蟲之模擬登陸 CSDN篇
請求大神幫助 最近想搞一下爬蟲的模擬登陸,就想直接拿csdn練手了,一開始還想著一篇文章寫完,寫到一半發現,大意了,csdn有加密,得慢慢啃了,啃著啃著誰知道又發現問題了。勾選preserve log 是為了檢視登陸成功後,也就是頁面重新整理前的網頁檔案,我們需要搞清楚它提交了什麼樣的引數。這一次賬...