Python爬蟲人人影視追劇指令碼

**實現

結果最近追劇時發現找資源挺繁瑣的，網頁切換來切換去耗時也多，所以就想寫個指令碼代替。於是今下午花了點時間，先對人人影視進行了資源爬取。

搜尋頁面

開啟工作台，選擇network，重新整理之後，如圖：

圖中指出的就是搜尋介面『 http :西部世界&search_type=resource 』

就兩引數：keywd和search_type（搜尋型別）

影視資源頁面

沒錯就是圖中箭頭所指的tv，這就是介面，

request url:

分析多個頁面後，發現只有33701是變化的，它就在西部世界url中（

5.22更新完善

今天使用時，發現報了錯，有些資源抓取不到。再次抓包分析後，發現資源分為兩類：電視劇集、電影。

電影的介面是movie，類似：

request url:

接下來就簡單了，靜態頁面，有點經驗就ok的。如圖：

所需第三方庫

import requests
from lxml import html
import re
import json

搜尋頁面

#獲取搜尋頁面資源
defget_html
(keywd,url):
}#cookie相帶就帶
url=url%keywd
html=requests.get(url,params=param).content.decode('utf8')
return html

5.22更新解析搜尋頁鏈結

def
get_movielink
(text):
tree=html.fromstring(text)
ctree = tree.xpath('//div[@class="clearfix search-item"]')
link=
for item in ctree:
print(item.xpath('em/text()')[0],item.xpath('div[2]/div/a/strong/text()')[0],':',item.xpath('div[2]/div/a/@href')[0])
return link #元組的列表，元組第乙個元素是資源型別（如電影）

def
get_downloadlink
(link):
if type_link=='電視劇集':
from_url=''%link.split('/')[-1]
else:
from_url=''%link.split('/')[-1]
param = 
data=requests.get(from_url,params=param).content.decode('utf8')
data=''.join(data.split('=')[1:])
print(data)
# pattern='大致就是這樣的。 
5.22新的展示
思路**大致就這樣，沒做異常處理（因為我想追的劇沒報錯，o(￣︶￣)o，可能有錯，也沒優化**，你可以改善一下，比如異常處理，多執行緒多程序併發等

python爬蟲人人網登陸

匯入模組from urllib import request,parse from http import cookiejar 儲存cookie，例項化cookiecookie cookiejar.cookiejar com plogin.do 登入賬號密碼data 轉換格式data parse.u...

爬蟲備份人人網狀態

話說周圍還在用人人網的人真是越來越少了，有一天閒來無事開啟人人，發現最新的狀態還是2013年12月的，好多好友也已經不怎麼聯絡了，真是物是人非啊。翻了翻自己的狀態，都是大學本科時發的，感覺挺有紀念意義的，就想著有空寫個爬蟲把自己的狀態抓下來做個備份，萬一哪天人人掛了，還能給自己的大學生活留個念想由...

關於公開課專訪人人影視字幕組

期待stanford的程式設計方法學和berkley的作業系統與系統程式設計那幾老師不是語速快就是口音中東式重人人字幕，給力啊！以下內容來自網際網路 2010 公開課是耶魯做公益，也是人人字幕做公益尹渢淇目前還沒有畢業，在北京第二外國語學院英語系讀大四。記者見到他時，他正在電腦前進...

Python爬蟲 人人影視追劇指令碼

python爬蟲人人網登陸

爬蟲 備份人人網狀態

關於公開課 專訪人人影視字幕組

相關推薦

Python爬蟲人人影視追劇指令碼

爬蟲備份人人網狀態

關於公開課專訪人人影視字幕組