使用webmagic搭建乙個簡單的爬蟲

2022-08-27 22:21:21 字數 1521 閱讀 5030

剛剛接觸爬蟲,聽說webmagic很不錯,於是就了解了一下。

webmagic的是乙個無須配置、便於二次開發的爬蟲框架,它提供簡單靈活的api,只需少量**即可實現乙個爬蟲。

以下是我學習的過程:

部署好後就建乙個class繼承pageprocessor介面,重寫process()方法,即可完成乙個爬蟲。

是不是很簡單?

先上**,再講解吧。

import us.codecraft.webmagic.page;

import us.codecraft.webmagic.site;

import us.codecraft.webmagic.spider;

import us.codecraft.webmagic.processor.pageprocessor;

public class myprocessor implements pageprocessor

@override

public void process(page page) .html").match())else

} public static void main(string args)

}

由於剛開始學,技術有限,所以簡單地爬一下這些文章的作者。

要爬取,首先得知道內容在哪個位置上。在chrome下審查一下元素發現,文章都在這裡

點進文章後審查元素發現作者的名字在這裡

知道要爬的內容在哪個位置之後。我們還需要知道怎樣才能拿到這些資料。

這裡說一下webmagic的內容

啟動爬蟲就這句:spider.create(new myprocessor()).addurl("").thread(5).run();//addurl就是種子url

page物件就是當前獲取的頁面,

geturl()可以獲得當前url,

addtargetrequests()就是把鏈結放入等待爬取

gethtml()獲得頁面的html元素

上面這些很容易就能知道它的意思,不懂得是xpath();

剛開始學,我也不懂,但是chrome懂,所以可以讓它幫我們寫好xpath。

審查元素下,選擇要需要的部分右鍵copy,選擇copy xpath,然後在console下貼上

關於xpath的教程可以檢視

關於webmagic的可以檢視

使用nodebb搭建乙個論壇

由於現在手頭上是mac,所以基於mac上搭建,下面講具體搭建過程。當然其他作業系統使用者可訪問 裡面除了mac,還有其他作業系統的搭建過程。希望大家學習愉快 言歸正傳 首先,安裝以下程式 用homebrew安裝 redis brew install redis在你的終端中輸入,啟動 redis re...

使用Elasticsearch搭建乙個檔案搜尋系統

基本需求 特點如下 基於web的使用者介面,使用瀏覽器就可以直接訪問 可以對檔案內容進行搜尋和匹配,並且返回檔案基本資訊和關鍵字高亮,並提供鏈結遠端開啟檔案 支援各種富文字內容,包括ppt,pdf等 可以監控檔案的變化,當檔案有增刪改之後,能夠重新索引檔案 我們先看看最終的效果 任務分解 再簡單分解...

使用python flask搭建乙個簡易的伺服器

之前使用flask搭建了乙個簡易的伺服器,記錄如下 匯入需要的庫 coding utf 8 from flask import flask from flask import request,json import json from pil import image from download i...