記錄用WebMagic爬蟲框架寫第乙個爬蟲專案

2021-10-08 12:47:41 字數 893 閱讀 3471

import us.codecraft.webmagic.page;

import us.codecraft.webmagic.site;

import us.codecraft.webmagic.spider;

import us.codecraft.webmagic.pipeline.jsonfilepipeline;

import us.codecraft.webmagic.processor.pageprocessor;

public

class

webspider

implements

pageprocessor

page.

putfield

("readme"

,page.

gethtml()

.xpath

("//div[@id='readme']/tidytext()"))

;}@override

public site getsite()

public

static

void

main

(string[

] args)

}

在編寫過程**現了一些小問題,需要記得的是在spider.class檔案中attach source;

輸出日誌需要在專案中新增file,並命名為log4j.properties

並在此檔案中寫入

log4j.rootlogger=info, stdout

%d %p [

%c]-

%m%n

控制台獲取了日誌資訊,當然不新增此檔案,也是可以執行的,只是無日誌檔案。

哦啊衝!!

基於webmagic爬蟲框架的專案記錄

1 為什麼選定了webmagic?剛開始做的時候採用的是 httpclient htmlparser dom4j,主要說下為什麼使用了dom4j,現在的webmagic也是採用了dom4j,這裡主要是需要解析乙個 這個 的位址比較特殊,翻頁位址一次性儲存到了js方法裡,普通的html節點無法獲取到,...

WebMagic 爬蟲框架學習

而spider則將這幾個元件組織起來,讓它們可以互相互動,流程化的執行,可以認為spider是乙個大的容器,它也是webmagic邏輯的核心。webmagic總體架構圖如下 1.2.pageprocessor pageprocessor負責解析頁面,抽取有用資訊,以及發現新的鏈結。webmagic使...

基於webmagic框架的多主題爬蟲關鍵詞切換

eg 我們需要爬取同程旅遊網杭州的旅遊景點資訊,url是 eg 同程旅遊網從杭州到北京的國內遊,url是 第三頁是 浙江 消防 pn 10 浙江 消防 pn 20 兩種方式的配置舉例如下 filters searchfilter kwfixvalue 浙江,江蘇,上海,北京,天津 kwvalue 火...