基於webmagic爬蟲框架的專案記錄

1、為什麼選定了webmagic？

剛開始做的時候採用的是 httpclient+htmlparser+dom4j，主要說下為什麼使用了dom4j，現在的webmagic也是採用了dom4j，這裡主要是需要解析乙個**，這個**的位址比較特殊，翻頁位址一次性儲存到了js方法裡，普通的html節點無法獲取到，所以採用dom4j就是為了獲取js裡的位址內容。

1) 後來2.0版本直接換成了webmagic，這個比較好用，優點：

3) 可以記錄爬過的位址，方便去重；

4) 可以start和shutdown爬蟲；

5) 執行緒池；

6) 還有好多慢慢體會吧。

順便說下python的爬蟲，當時在選用webmagic之前特地學的python，怎麼說呢，適合沒啥基礎的學，上手快。沒有feel，其實。。。就是不保密，成果很容易被copy另一家gs。

2、實現的功能點

基本的爬蟲功能：爬取頁面特定節點，節點資訊處理。

還有就是crud，例如：**的xpath、url、備份到其他資料庫的功能。

定時爬取等等。

3、難點(坑)

新聞類的麼，**頁面還是比較好分析的，沒那麼多的介面需要對接分析。

日誌前端列印的websocket，注意jdk版本，tomcat版本好像也沒啥了。給個學習的連線：

報jsr 356調整版本。

定時任務：

暫停執行緒池裡的執行緒：研究一天半，沒啥思路，各路網友提供下方向吧，在此跪謝。（ps:原來是想設計乙個公共變數，每次啟動新執行緒去判斷。如果暫停就是變為false。但是...不知道咋弄啊，改原始碼？複寫？）

基於webmagic爬蟲框架的專案記錄

基於webmagic框架的多主題爬蟲關鍵詞切換

WebMagic 爬蟲框架學習

基於WebMagic的CSDN部落格爬蟲

基於webmagic爬蟲框架的專案記錄

基於webmagic框架的多主題爬蟲關鍵詞切換

WebMagic 爬蟲框架學習

基於WebMagic的CSDN部落格爬蟲

相關推薦