思路:
首先爬取乙個使用者的個人資訊,然後根據該使用者的好友關係去爬取好友資訊,依次類推,爬取所有使用者。
根據獲取的使用者id,訪問blog主頁獲取個簽名。
package com.cuihs.myspider;
import org.jsoup.select.elements;
import us.codecraft.webmagic.page;
import us.codecraft.webmagic.request;
import us.codecraft.webmagic.site;
import us.codecraft.webmagic.spider;
import us.codecraft.webmagic.pipeline.filepipeline;
import us.codecraft.webmagic.processor.pageprocessor;
import us.codecraft.webmagic.selector.html;
import us.codecraft.webmagic.selector.plaintext;
public class csdnuserpageprocessor implements pageprocessorelse if(page.geturl().regex("").match())
if(word instanceof plaintext&&((plaintext)word).all().size()>0&&!((plaintext)word).all().get(0).isempty())else
} }@override
public site getsite()
public static void main(string args)
//獲取最後「/」後面的內容
public static string getlastslantcontent(string fullpath)else
}}
Webmagic控制爬取深度
最近搞畢業設計,使用到了webmagic,但是才開始學習,對各個元件都還不是很熟悉。相信初學者都會遇到乙個問題,那就是 必須要讓所有url都處理完,才能結束整個爬蟲過程嗎?一開始,我用的是非常簡單的方法,如下 int pagecnt 0 public static int limit 10000 最...
歡迎使用CSD
建立乙個自定義列表 如何建立乙個註腳 注釋也是必不可少的 katex數學公式 新的甘特圖功能,豐富你的文章 uml 圖表 flowchart流程圖 匯出與匯入 你好!這是你第一次使用markdown編輯器所展示的歡迎頁。如果你想學習如何使用markdown編輯器,可以仔細閱讀這篇文章,了解一下mar...
歡迎使用CSD
這是什麼東西?你好!這是你第一次使用markdown編輯器所展示的歡迎頁。如果你想學習如何使用markdown編輯器,可以仔細閱讀這篇文章,了解一下markdown的基本語法知識。全新的介面設計,將會帶來全新的寫作體驗 在創作中心設定你喜愛的 高亮樣式,markdown將 片顯示選擇的高亮樣式進行展...