1、為什麼選定了webmagic?
剛開始做的時候採用的是 httpclient+htmlparser+dom4j,主要說下為什麼使用了dom4j,現在的webmagic也是採用了dom4j,這裡主要是需要解析乙個**,這個**的位址比較特殊,翻頁位址一次性儲存到了js方法裡,普通的html節點無法獲取到,所以採用dom4j就是為了獲取js裡的位址內容。
1) 後來2.0版本直接換成了webmagic,這個比較好用,優點:
3) 可以記錄爬過的位址,方便去重;
4) 可以start和shutdown爬蟲;
5) 執行緒池;
6) 還有好多慢慢體會吧。
順便說下python的爬蟲,當時在選用webmagic之前特地學的python,怎麼說呢,適合沒啥基礎的學,上手快。沒有feel,其實。。。就是不保密,成果很容易被copy另一家gs。
2、實現的功能點
基本的爬蟲功能:爬取頁面特定節點,節點資訊處理。
還有就是crud,例如:**的xpath、url、備份到其他資料庫的功能。
定時爬取等等。
3、難點(坑)
新聞類的麼,**頁面還是比較好分析的,沒那麼多的介面需要對接分析。
日誌前端列印的websocket,注意jdk版本,tomcat版本好像也沒啥了。給個學習的連線:
報jsr 356調整版本。
定時任務:
暫停執行緒池裡的執行緒:研究一天半,沒啥思路,各路網友提供下方向吧,在此跪謝。(ps:原來是想設計乙個公共變數,每次啟動新執行緒去判斷。如果暫停就是變為false。但是...不知道咋弄啊,改原始碼?複寫?)
基於webmagic框架的多主題爬蟲關鍵詞切換
eg 我們需要爬取同程旅遊網杭州的旅遊景點資訊,url是 eg 同程旅遊網從杭州到北京的國內遊,url是 第三頁是 浙江 消防 pn 10 浙江 消防 pn 20 兩種方式的配置舉例如下 filters searchfilter kwfixvalue 浙江,江蘇,上海,北京,天津 kwvalue 火...
WebMagic 爬蟲框架學習
而spider則將這幾個元件組織起來,讓它們可以互相互動,流程化的執行,可以認為spider是乙個大的容器,它也是webmagic邏輯的核心。webmagic總體架構圖如下 1.2.pageprocessor pageprocessor負責解析頁面,抽取有用資訊,以及發現新的鏈結。webmagic使...
基於WebMagic的CSDN部落格爬蟲
剛入職沒有多久,開發任務不是太重,很多功能的開發不能全部參與,閒暇之餘,mentor給了乙個小的開發任務 把美周內部共享的電子書全部爬取下來 其實剛接到這個任務不知道怎麼入手,便查了相關的爬蟲工具,如nutch heritrix crawler4j webmagic等等。其中webmagic是國人黃...