現在市面上出現了很多網盤搜尋引擎,寫這系列博文及爬蟲程式的初衷:
工具/庫選擇
此爬蟲原理是通過爬取使用者的分享/**儲存鏈結來達到資源搜尋的目的,而使用者與使用者之間通過訂閱/關注來聯絡,慢慢形成乙個龐大的爬蟲網路。
首先設定爬取使用者(初始化爬蟲佇列)。
遍歷使用者分享/**,更改佇列狀態。
將使用者訂閱/關注使用者加入佇列。
重複以上步驟。
ps:看似簡單的流程,想要精工還需細磨。
當沒有訂閱任何使用者時,網盤的分享動態介面會出現一些使用者噢。這是系統推薦的使用者,雖然改動不一定會很大,但是可以作為爬蟲的初始使用者來處理(這種推薦使用者聽說關注的人都不少噢)
介面返回資訊:
使用者列表結構:errorno: 狀態碼
request_id:請求id
hotuser_list:使用者列表
endtype:型別(通常返回-1,不明用途)
hot_uname:使用者暱稱
intro:描述
follow_count:訂閱人數
fans_count:粉絲人數
user_type:使用者型別?(不明意義)
is_vip:是否為vip
pubshare_count:分享數
hot_uk:不知道啥玩意
album_count:分享**數
暫時就寫到這兒了,要去寫**了~ 寫完再會
百度網盤爬蟲
在這裡我們要記錄粉絲數,好友數,分享數,uk 2.從我們初始化的資料庫中取出一定量的資料。首先獲得乙個 uk下分享的資訊,uk 下分享資訊有兩種一種是普通的檔案,另一種是 因此我們通過如下鏈結獲取資訊的時候要注意sharelists url getsharelist?category 0 auth ...
解決百度網盤限速
使用方法 安裝部分 firefox 定製瀏覽器 chrome 定製瀏覽器 1 使用上面的定製版瀏覽器,登入自己的帳號。注意事項 2 如果還是出現http 1.1 403錯誤,嘗試將應用 id 修改為 778750。2.1 如何修改應用 id 呢?開啟 在彈出的視窗裡修改。2.2 如果 778750 ...
誰在捍衛百度網盤?
文 曾響鈴 科技向令說 xiangling0815 他來了 他來了,他帶著一星走來了。釘釘被推向 風口浪尖 怎麼說也是釘釘自己湊上去的,學生們不想上網課,釘釘卻在 賣力吆喝 蹙了廣大學生黨的眉頭,被報復一下,也算是情理之中的事。惡意刷分確實讓人無奈,也不得不讓人感嘆 爸爸們 真是無處不在。使用者為何...