import us.codecraft.webmagic.page;
import us.codecraft.webmagic.site;
import us.codecraft.webmagic.spider;
import us.codecraft.webmagic.pipeline.jsonfilepipeline;
import us.codecraft.webmagic.processor.pageprocessor;
public
class
webspider
implements
pageprocessor
page.
putfield
("readme"
,page.
gethtml()
.xpath
("//div[@id='readme']/tidytext()"))
;}@override
public site getsite()
public
static
void
main
(string[
] args)
}
在編寫過程**現了一些小問題,需要記得的是在spider.class檔案中attach source;
輸出日誌需要在專案中新增file,並命名為log4j.properties
並在此檔案中寫入
log4j.rootlogger=info, stdout
%d %p [
%c]-
%m%n
控制台獲取了日誌資訊,當然不新增此檔案,也是可以執行的,只是無日誌檔案。
哦啊衝!!
基於webmagic爬蟲框架的專案記錄
1 為什麼選定了webmagic?剛開始做的時候採用的是 httpclient htmlparser dom4j,主要說下為什麼使用了dom4j,現在的webmagic也是採用了dom4j,這裡主要是需要解析乙個 這個 的位址比較特殊,翻頁位址一次性儲存到了js方法裡,普通的html節點無法獲取到,...
WebMagic 爬蟲框架學習
而spider則將這幾個元件組織起來,讓它們可以互相互動,流程化的執行,可以認為spider是乙個大的容器,它也是webmagic邏輯的核心。webmagic總體架構圖如下 1.2.pageprocessor pageprocessor負責解析頁面,抽取有用資訊,以及發現新的鏈結。webmagic使...
基於webmagic框架的多主題爬蟲關鍵詞切換
eg 我們需要爬取同程旅遊網杭州的旅遊景點資訊,url是 eg 同程旅遊網從杭州到北京的國內遊,url是 第三頁是 浙江 消防 pn 10 浙江 消防 pn 20 兩種方式的配置舉例如下 filters searchfilter kwfixvalue 浙江,江蘇,上海,北京,天津 kwvalue 火...