使用webmagic爬取csdn使用者個性簽名

2021-08-14 12:58:06 字數 1016 閱讀 4462

思路:

首先爬取乙個使用者的個人資訊,然後根據該使用者的好友關係去爬取好友資訊,依次類推,爬取所有使用者。

根據獲取的使用者id,訪問blog主頁獲取個簽名。

package com.cuihs.myspider;

import org.jsoup.select.elements;

import us.codecraft.webmagic.page;

import us.codecraft.webmagic.request;

import us.codecraft.webmagic.site;

import us.codecraft.webmagic.spider;

import us.codecraft.webmagic.pipeline.filepipeline;

import us.codecraft.webmagic.processor.pageprocessor;

import us.codecraft.webmagic.selector.html;

import us.codecraft.webmagic.selector.plaintext;

public class csdnuserpageprocessor implements pageprocessorelse if(page.geturl().regex("").match())

if(word instanceof plaintext&&((plaintext)word).all().size()>0&&!((plaintext)word).all().get(0).isempty())else

} }@override

public site getsite()

public static void main(string args)

//獲取最後「/」後面的內容

public static string getlastslantcontent(string fullpath)else

}}

Webmagic控制爬取深度

最近搞畢業設計,使用到了webmagic,但是才開始學習,對各個元件都還不是很熟悉。相信初學者都會遇到乙個問題,那就是 必須要讓所有url都處理完,才能結束整個爬蟲過程嗎?一開始,我用的是非常簡單的方法,如下 int pagecnt 0 public static int limit 10000 最...

歡迎使用CSD

建立乙個自定義列表 如何建立乙個註腳 注釋也是必不可少的 katex數學公式 新的甘特圖功能,豐富你的文章 uml 圖表 flowchart流程圖 匯出與匯入 你好!這是你第一次使用markdown編輯器所展示的歡迎頁。如果你想學習如何使用markdown編輯器,可以仔細閱讀這篇文章,了解一下mar...

歡迎使用CSD

這是什麼東西?你好!這是你第一次使用markdown編輯器所展示的歡迎頁。如果你想學習如何使用markdown編輯器,可以仔細閱讀這篇文章,了解一下markdown的基本語法知識。全新的介面設計,將會帶來全新的寫作體驗 在創作中心設定你喜愛的 高亮樣式,markdown將 片顯示選擇的高亮樣式進行展...