Python爬蟲 人人影視追劇指令碼

2022-08-30 15:51:25 字數 2205 閱讀 6700

**實現

結果最近追劇時發現找資源挺繁瑣的,網頁切換來切換去耗時也多,所以就想寫個指令碼代替。於是今下午花了點時間,先對人人影視進行了資源爬取。

搜尋頁面

開啟工作台,選擇network,重新整理之後,如圖:

圖中指出的就是搜尋介面『 http :西部世界&search_type=resource 』

就兩引數:keywd和search_type(搜尋型別)

影視資源頁面

沒錯就是圖中箭頭所指的tv,這就是介面,

request url:

分析多個頁面後,發現只有33701是變化的,它就在西部世界url中(

5.22更新完善

今天使用時,發現報了錯,有些資源抓取不到。再次抓包分析後,發現資源分為兩類:電視劇集、電影。

電影的介面是movie,類似:

request url:

接下來就簡單了,靜態頁面,有點經驗就ok的。如圖:

所需第三方庫

import requests

from lxml import html

import re

import json

搜尋頁面
#獲取搜尋頁面資源

defget_html

(keywd,url):

}#cookie相帶就帶

url=url%keywd

html=requests.get(url,params=param).content.decode('utf8')

return html

5.22更新解析搜尋頁鏈結
def

get_movielink

(text):

tree=html.fromstring(text)

ctree = tree.xpath('//div[@class="clearfix search-item"]')

link=

for item in ctree:

print(item.xpath('em/text()')[0],item.xpath('div[2]/div/a/strong/text()')[0],':',item.xpath('div[2]/div/a/@href')[0])

return link #元組的列表,元組第乙個元素是資源型別(如電影)

def

get_downloadlink

(link):

if type_link=='電視劇集':

from_url=''%link.split('/')[-1]

else:

from_url=''%link.split('/')[-1]

param =

data=requests.get(from_url,params=param).content.decode('utf8')

data=''.join(data.split('=')[1:])

print(data)

# pattern='大致就是這樣的。

5.22新的展示

思路**大致就這樣,沒做異常處理(因為我想追的劇沒報錯,o( ̄︶ ̄)o,可能有錯,也沒優化**,你可以改善一下,比如異常處理,多執行緒多程序併發等

python爬蟲人人網登陸

匯入模組from urllib import request,parse from http import cookiejar 儲存cookie,例項化cookiecookie cookiejar.cookiejar com plogin.do 登入賬號密碼data 轉換格式data parse.u...

爬蟲 備份人人網狀態

話說周圍還在用人人網的人真是越來越少了,有一天閒來無事開啟人人,發現最新的狀態還是2013年12月的,好多好友也已經不怎麼聯絡了,真是物是人非啊。翻了翻自己的狀態,都是大學本科時發的,感覺挺有紀念意義的,就想著有空寫個爬蟲把自己的狀態抓下來做個備份,萬一哪天人人掛了,還能給自己的大學生活留個念想 由...

關於公開課 專訪人人影視字幕組

期待stanford的 程式設計方法學 和berkley的 作業系統與系統程式設計 那幾老師不是語速快就是口音 中東式 重 人人字幕,給力啊!以下內容來自網際網路 2010 公開課是耶魯做公益,也是人人字幕做公益 尹 渢淇目前還沒有畢業,在北京第二外國語學院英語系讀大四。記者見到他時,他正在電腦前進...