人生苦短,唯有python
是不是**寫多了自己就熟練了呢?
人人網爬蟲模板,具體操作以後有機會再新增吧!
#coding: utf-8
import urllib2
import urllib
import cookielib
import re
def zhihubrower(url,user,password):
#登陸頁面,可以通過抓包工具分析獲得,如fiddler,wireshark
login_page = ""
try:
#獲得乙個cookiejar例項
cj = cookielib.cookiejar()
#cookiejar作為引數,獲得乙個opener的例項
#偽裝成乙個正常的瀏覽器,避免有些web伺服器拒絕訪問。
opener.addheaders = [('user-agent','mozilla/5.0 (windows nt 6.3; wow64; rv:36.0) gecko/20100101 firefox/36.0')]
#偽裝成內部訪問
opener.addheaders = [('refer','')]
#生成post資料,含有登陸使用者名稱密碼。
data = urllib.urlencode()
#以post的方法訪問登陸頁面,訪問之後cookiejar會自定儲存cookie
opener.open(login_page,data)
#以帶cookie的方式訪問頁面
op=opener.open(url)
#讀取頁面原始碼
data= op.read()
return data
#異常處理
except exception,e:
print str(e)
#訪問某使用者的個人主頁,其實這已經實現了人人網的簽到功能。
html = zhihubrower("",'[email protected]','********')
print html
print '-----end--------'
python 爬蟲 登入知乎
pytho3.4 requests.get request.post requests.session 1 通過瀏覽器f12開發者工具,找到登入時提交的表單以及請求的url 注意請求的url不是瀏覽器網域名稱框的url 因為知乎改了,現在不需要驗證碼了,所以中少了驗證碼的引數,不過 裡是有的 2 設...
知乎首頁爬蟲
嘗試了一下知乎首頁爬蟲 import re import requests from urllib import parse 首頁鏈結 headers resp requests.get headers headers print resp.text urls re.findall content ...
Python 爬蟲模擬登陸知乎
在之前寫過一篇使用python爬蟲爬取電影天堂資源的部落格,重點是如何解析頁面和提高爬蟲的效率。由於電影天堂上的資源獲取許可權是所有人都一樣的,所以不需要進行登入驗證操作,寫完那篇文章後又花了些時間研究了一下python模擬登陸,網上關於這部分的資料很多,很多demo都是登陸知乎的,原因是知乎的登陸...