使用webmagic進行爬蟲練習

2022-09-21 14:24:10 字數 828 閱讀 7459

搜尋引擎是基於爬蟲的。

還有其他小的應用也是基於爬蟲的,比如今日頭條,最開始是從各個新聞**上蒐集新聞,蒐集後重新定位、排序、推送使用者。還有天眼查、企查查、啟信寶、是工信部開源的資料,也是爬蟲獲得的。還有自動搶票的軟體,也是通過爬蟲實現模擬登陸和搶票操作。

​ 1.首先整個網頁都抓取下來;

​ 2.分析網頁的結構,一般網頁的結構都是一樣的。

練習:爬取笑話,**:xiaohua.zol.com.cn//lengxiaohua/ 大概是1700多條

自己建立資料表,字段可以有:title content isdelet id 建立時間 等

得到的是page

page.gethtml() 獲取html中的dom樹

.links() 獲取到所有的鏈結,然後用正規表示式.*(/detail/ \d+ /.*\html).*捕獲分組 。括號括起來誰就是捕獲誰的分組。正則中:\.表示.

page.css(".content",text)css選擇器,裡面可以有兩個引數。

listlist01 = page.gethtml().links().regex(.*(/detail/ \d+ /.*\html).*).all();

// 例如得到的是:/detail20/12598.html

// 然後需要自己拼網域名稱

// list01.streams().map(s->""+s);

// 然後把完整的網域名稱給下乙個爬蟲,用css選擇器選擇

在根目錄下有乙個robots.txt檔案,開啟後,**上哪些資料不允許爬。用作商用需注意。

WebMagic 爬蟲框架學習

而spider則將這幾個元件組織起來,讓它們可以互相互動,流程化的執行,可以認為spider是乙個大的容器,它也是webmagic邏輯的核心。webmagic總體架構圖如下 1.2.pageprocessor pageprocessor負責解析頁面,抽取有用資訊,以及發現新的鏈結。webmagic使...

webmagic使用疑問

1.使用webmagic的時候ip被禁止了怎麼辦?2.由於網路原因導致time out怎麼辦?建議 使用異常捕獲和遞迴去呼叫 3.webmagic 規則如何配置成可以抓取js值呢?建議 xpath body scrpit 1 代表body下第1個script 4.如何獲取頁面元素?建議 xpath ...

基於WebMagic的CSDN部落格爬蟲

剛入職沒有多久,開發任務不是太重,很多功能的開發不能全部參與,閒暇之餘,mentor給了乙個小的開發任務 把美周內部共享的電子書全部爬取下來 其實剛接到這個任務不知道怎麼入手,便查了相關的爬蟲工具,如nutch heritrix crawler4j webmagic等等。其中webmagic是國人黃...