基於WebMagic的CSDN部落格爬蟲

2021-07-29 10:50:52 字數 463 閱讀 8394

剛入職沒有多久,開發任務不是太重,很多功能的開發不能全部參與,閒暇之餘,mentor給了乙個小的開發任務「把美周內部共享的電子書全部爬取下來」,其實剛接到這個任務不知道怎麼入手,便查了相關的爬蟲工具,如nutch、heritrix、crawler4j、webmagic等等。其中webmagic是國人黃億華先生的良心大作,webmagic是乙個無須配置、便於二次開發的爬蟲框架,它提供簡單靈活的api,只需少量**即可實現乙個爬蟲,這裡給出了兩個例子,乙個是爬取csdn部落格資訊,乙個是爬蟲電子書。

本文用到的是pom檔案,自動匯入jar包,可參考pom包,如果不使用pom.xml構建,可匯入相應的jar包就可以了,參見不使用pom構建。

本例測試了zhuqiuhui的專欄下部落格title資訊的爬取例子,**參見github**。

本例測試了爬取電子書的測試例子,相關**用到了cookie(寫爬蟲時遇到登入情況必須要使用到cookie),**參見github**。

使用webmagic爬取csdn使用者個性簽名

思路 首先爬取乙個使用者的個人資訊,然後根據該使用者的好友關係去爬取好友資訊,依次類推,爬取所有使用者。根據獲取的使用者id,訪問blog主頁獲取個簽名。package com.cuihs.myspider import org.jsoup.select.elements import us.cod...

基於webmagic爬蟲框架的專案記錄

1 為什麼選定了webmagic?剛開始做的時候採用的是 httpclient htmlparser dom4j,主要說下為什麼使用了dom4j,現在的webmagic也是採用了dom4j,這裡主要是需要解析乙個 這個 的位址比較特殊,翻頁位址一次性儲存到了js方法裡,普通的html節點無法獲取到,...

基於webmagic框架的多主題爬蟲關鍵詞切換

eg 我們需要爬取同程旅遊網杭州的旅遊景點資訊,url是 eg 同程旅遊網從杭州到北京的國內遊,url是 第三頁是 浙江 消防 pn 10 浙江 消防 pn 20 兩種方式的配置舉例如下 filters searchfilter kwfixvalue 浙江,江蘇,上海,北京,天津 kwvalue 火...