使用webmagic進行爬蟲練習

搜尋引擎是基於爬蟲的。

還有其他小的應用也是基於爬蟲的，比如今日頭條，最開始是從各個新聞**上蒐集新聞，蒐集後重新定位、排序、推送使用者。還有天眼查、企查查、啟信寶、是工信部開源的資料，也是爬蟲獲得的。還有自動搶票的軟體，也是通過爬蟲實現模擬登陸和搶票操作。

1.首先整個網頁都抓取下來；

2.分析網頁的結構，一般網頁的結構都是一樣的。

練習：爬取笑話，**：xiaohua.zol.com.cn//lengxiaohua/ 大概是1700多條

自己建立資料表，字段可以有：title content isdelet id 建立時間等

得到的是page

page.gethtml() 獲取html中的dom樹

.links() 獲取到所有的鏈結，然後用正規表示式.*(/detail/ \d+ /.*\html).*捕獲分組。括號括起來誰就是捕獲誰的分組。正則中：\.表示.

page.css(".content",text)css選擇器，裡面可以有兩個引數。

listlist01 = page.gethtml().links().regex(.*(/detail/ \d+ /.*\html).*).all();
// 例如得到的是：/detail20/12598.html
// 然後需要自己拼網域名稱
// list01.streams().map(s->""+s);
// 然後把完整的網域名稱給下乙個爬蟲，用css選擇器選擇

在根目錄下有乙個robots.txt檔案，開啟後，**上哪些資料不允許爬。用作商用需注意。

WebMagic 爬蟲框架學習

而spider則將這幾個元件組織起來，讓它們可以互相互動，流程化的執行，可以認為spider是乙個大的容器，它也是webmagic邏輯的核心。webmagic總體架構圖如下 1.2.pageprocessor pageprocessor負責解析頁面，抽取有用資訊，以及發現新的鏈結。webmagic使...

webmagic使用疑問

1.使用webmagic的時候ip被禁止了怎麼辦?2.由於網路原因導致time out怎麼辦?建議使用異常捕獲和遞迴去呼叫 3.webmagic 規則如何配置成可以抓取js值呢？建議 xpath body scrpit 1 代表body下第1個script 4.如何獲取頁面元素?建議 xpath ...

基於WebMagic的CSDN部落格爬蟲

剛入職沒有多久，開發任務不是太重，很多功能的開發不能全部參與，閒暇之餘，mentor給了乙個小的開發任務把美周內部共享的電子書全部爬取下來其實剛接到這個任務不知道怎麼入手，便查了相關的爬蟲工具，如nutch heritrix crawler4j webmagic等等。其中webmagic是國人黃...

使用webmagic進行爬蟲練習

WebMagic 爬蟲框架學習

webmagic使用疑問

基於WebMagic的CSDN部落格爬蟲

相關推薦