乙個小型的網頁抓取系統的架構設計

乙個小型的網頁抓取系統的架構設計

網頁抓取服務是網際網路中的常用服務，在搜尋引擎中spider（網頁抓取爬蟲）是必需的核心服務。搜尋引擎的衡量指標「多、快、準、新」四個指標中，多、快、新都是對spider的要求。搜尋引擎公司比如google、baidu都維護者自己負責的spider系統。當然他們的系統很複雜，在這裡我們介紹乙個小型的網頁抓取系統的架構，目標是快速的抓取某個或者幾個指定的**的資料，它的作用有很多，比如做競品分析，還有其他不可告人的j。

下面這個小型的網頁抓取系統，分成下面幾個部分：

1）網頁種子檔案，這個裡面配置要抓取的鏈結是我們抓取服務的起點；

2）鏈結池，鏈結的fifo佇列，種子的link會先入這個佇列；

4）網頁池，網頁的fifo佇列，抓取的網頁都會進入到這個pool；

5）抽取執行緒是系統的核心，它負責根據配置的模板抽取網頁中指定的鏈結與資料，將抽取到個格式化資料入到抽取執行緒，將抽取出來的新的鏈結放到鏈結庫；

6）排程執行緒，負責鏈結的排程策略，將選擇合適的鏈結放到鏈結池佇列；

系統架構如下：

乙個小型的網頁抓取系統的架構設計

網頁抓取乙個用PHP實現的網頁抓取的例項

網頁抓取的乙個小例子

乙個電子發票開票平台的系統架構設計（01）

乙個小型的網頁抓取系統的架構設計

網頁抓取 乙個用PHP實現的網頁抓取的例項

網頁抓取的乙個小例子

乙個電子發票開票平台的系統架構設計（01）

相關推薦

網頁抓取乙個用PHP實現的網頁抓取的例項