**實現
結果最近追劇時發現找資源挺繁瑣的,網頁切換來切換去耗時也多,所以就想寫個指令碼代替。於是今下午花了點時間,先對人人影視進行了資源爬取。
搜尋頁面
開啟工作台,選擇network,重新整理之後,如圖:
圖中指出的就是搜尋介面『 http :西部世界&search_type=resource 』
就兩引數:keywd和search_type(搜尋型別)
影視資源頁面
沒錯就是圖中箭頭所指的tv,這就是介面,
request url:5.22更新完善分析多個頁面後,發現只有33701是變化的,它就在西部世界url中(
今天使用時,發現報了錯,有些資源抓取不到。再次抓包分析後,發現資源分為兩類:電視劇集、電影。
電影的介面是movie,類似:
request url:接下來就簡單了,靜態頁面,有點經驗就ok的。如圖:
所需第三方庫
import requests
from lxml import html
import re
import json
搜尋頁面#獲取搜尋頁面資源
defget_html
(keywd,url):
}#cookie相帶就帶
url=url%keywd
html=requests.get(url,params=param).content.decode('utf8')
return html
5.22更新解析搜尋頁鏈結def
get_movielink
(text):
tree=html.fromstring(text)
ctree = tree.xpath('//div[@class="clearfix search-item"]')
link=
for item in ctree:
print(item.xpath('em/text()')[0],item.xpath('div[2]/div/a/strong/text()')[0],':',item.xpath('div[2]/div/a/@href')[0])
return link #元組的列表,元組第乙個元素是資源型別(如電影)
def
get_downloadlink
(link):
if type_link=='電視劇集':
from_url=''%link.split('/')[-1]
else:
from_url=''%link.split('/')[-1]
param =
data=requests.get(from_url,params=param).content.decode('utf8')
data=''.join(data.split('=')[1:])
print(data)
# pattern='大致就是這樣的。
5.22新的展示
思路**大致就這樣,沒做異常處理(因為我想追的劇沒報錯,o( ̄︶ ̄)o,可能有錯,也沒優化**,你可以改善一下,比如異常處理,多執行緒多程序併發等
python爬蟲人人網登陸
匯入模組from urllib import request,parse from http import cookiejar 儲存cookie,例項化cookiecookie cookiejar.cookiejar com plogin.do 登入賬號密碼data 轉換格式data parse.u...
爬蟲 備份人人網狀態
話說周圍還在用人人網的人真是越來越少了,有一天閒來無事開啟人人,發現最新的狀態還是2013年12月的,好多好友也已經不怎麼聯絡了,真是物是人非啊。翻了翻自己的狀態,都是大學本科時發的,感覺挺有紀念意義的,就想著有空寫個爬蟲把自己的狀態抓下來做個備份,萬一哪天人人掛了,還能給自己的大學生活留個念想 由...
關於公開課 專訪人人影視字幕組
期待stanford的 程式設計方法學 和berkley的 作業系統與系統程式設計 那幾老師不是語速快就是口音 中東式 重 人人字幕,給力啊!以下內容來自網際網路 2010 公開課是耶魯做公益,也是人人字幕做公益 尹 渢淇目前還沒有畢業,在北京第二外國語學院英語系讀大四。記者見到他時,他正在電腦前進...