乙個小型的網頁抓取系統的架構設計

2021-06-26 21:08:12 字數 615 閱讀 4955

乙個小型的網頁抓取系統的架構設計

網頁抓取服務是網際網路中的常用服務,在搜尋引擎中spider(網頁抓取爬蟲)是必需的核心服務。搜尋引擎的衡量指標「多、快、準、新」四個指標中,多、快、新都是對spider的要求。搜尋引擎公司比如google、baidu都維護者自己負責的spider系統。當然他們的系統很複雜,在這裡我們介紹乙個小型的網頁抓取系統的架構,目標是快速的抓取某個或者幾個指定的**的資料,它的作用有很多,比如做競品分析,還有其他不可告人的j。

下面這個小型的網頁抓取系統,分成下面幾個部分:

1)網頁種子檔案,這個裡面配置要抓取的鏈結是我們抓取服務的起點;

2)鏈結池,鏈結的fifo佇列,種子的link會先入這個佇列;

4)網頁池,網頁的fifo佇列,抓取的網頁都會進入到這個pool;

5) 抽取執行緒是系統的核心,它負責根據配置的模板抽取網頁中指定的鏈結與資料,將抽取到個格式化資料入到抽取執行緒,將抽取出來的新的鏈結放到鏈結庫;

6)排程執行緒,負責鏈結的排程策略,將選擇合適的鏈結放到鏈結池佇列;

系統架構如下:

網頁抓取 乙個用PHP實現的網頁抓取的例項

php實現的網頁抓取的例項 url contents file get contents url echo contents url ch curl init timeout 5 curl setopt ch,curlopt url,url curl setopt ch,curlopt return...

網頁抓取的乙個小例子

protected void gethtml catch exception ex finally streamreader sr new streamreader wrequest.getresponse getresponsestream 開始接受伺服器回傳 string responsedat...

乙個電子發票開票平台的系統架構設計(01)

公司需要幫助客戶開發乙個電子發票平台,使用者為普通消費者,商戶,管理人員三種角色,分別又有對應的使用場景。又想要實現前後端分離,所以把公司常用的架構做了調整,來滿足客戶的需求。先放上架構圖看一下 因為客戶初期不準備大力推廣,但又要保證擴充套件性,用盡量少的資源來支撐所有功能,所以暫時這樣設計。具體來...