#-*- coding:utf-8 -*-
import requests,re
from pil import image
class doubanspider(object):
def __init__(self):
self.session = requests.session()
def login(self, username, password):
'referer':''}
#這個地方有一點奇怪,豆瓣有時需要驗證碼,有時不需要驗證碼
#需要驗證碼時,那麼data 裡面注釋的兩行是需要的
data =
url = ''
#我們注意到前面 data裡面還有兩個變數新增,下面新增
capsolution, capid = self._getcapcha(self.session.get(url).content)
if capsolution and capid:
print capsolution, capid
data['captcha-solution'] = capsolution
data['captcha-id'] = capid
r = self.session.post(url=url, data=data, headers=headers)
print self.session.cookies.items()
#跳轉到自己的頁面
print u'獲取驗證碼失敗'
capsolution = raw_input('輸入驗證碼:')
當執行時,列印出 cookie.items()出現上面的介面就是登陸成功了
豆瓣簡單模擬登陸
找到登陸介面後,用requests.post 請求該網頁url,之後將得到的cookie存入本地。遇到什麼問題?引數問題,在requests的post中要用,data。在get中要用params,這個就搞人了。給我感覺cookie的作用。沒有cookie,一些 是不能爬取的,要爬就需要cookie,...
Python 爬蟲之模擬登陸CSND
基本的指令碼語言是python,雖然不敢說是最好的語言,至少是最好的之一 0.0 用模擬登陸,我們需要用到多個模組,如下 requests beautifulsoup 安裝git clone git cd requests pip install pip pip install requests介紹...
Python 爬蟲模擬登陸知乎
在之前寫過一篇使用python爬蟲爬取電影天堂資源的部落格,重點是如何解析頁面和提高爬蟲的效率。由於電影天堂上的資源獲取許可權是所有人都一樣的,所以不需要進行登入驗證操作,寫完那篇文章後又花了些時間研究了一下python模擬登陸,網上關於這部分的資料很多,很多demo都是登陸知乎的,原因是知乎的登陸...