基於JMS的分布式爬蟲系統的設計與實現7

2021-09-03 08:14:48 字數 592 閱讀 9902

隨著網際網路技術的飛速發展,網路資訊以指數型趨勢高速增長。對於乙個要對資料進行統計分析的系統而言,蒐集資料的過程是冗長枯燥的。基於這一現實,分布式爬蟲系統獲得了發展的契機。系統通過多台伺服器的協調執行,成倍地提高了爬蟲的效率。當然,分布式系統在獲得效率提公升的同時也大大增加了系統的複雜程度,開發人員需要考慮多方面因素以確保系統的正常運轉。

本文對分布式爬蟲系統的架構做了深入的討論,給出了選擇該架構的原因。專案使用了jms訊息佇列技術在節點之間非同步傳遞訊息,起到應用解耦的效果。使用apache出品的activemq作為jms伺服器,能夠跨語言跨平台傳遞訊息,而且具有延遲接受的特性,一定程度上降低了網路延遲對系統效能的阻礙。中心節點的任務分配採用執行緒池技術,緩解了由於任務積累產生的效率瓶頸。

本文先介紹了專案研究背景,然後介紹了分布式爬蟲相關知識和本專案所用技術,最後展示了專案的需求分析和體系結構。最終實現的分布式爬蟲系統能夠做到中心節點分配爬蟲任務,任務節點執行爬蟲程式並儲存資料。同時系統針對一些分布式系統常用的效能需求做了設計,提高了系統的可擴充套件性和可靠性。

kafka的分布式爬蟲系統

幾乎停頓了1年之久,很久沒寫部落格了,一方面是在院裡做專案太忙,另一方面是自己也在摸索大資料領域的技術,終於自己搭起來了個基於kafka的分布式爬蟲程式,可以抓 的影象了,不多說,先看抓的影象資料。目前儲存在elastic中的影象記錄條數為1.7億條,用了13個節點,具體的影象資料儲存在hbase中...

基於scrapy redis的分布式爬蟲配置

基於scrapy的爬蟲只能是單機式爬蟲,而借助scrapy redis可實現分布式爬蟲 首先要安裝scrapy redis pip install scrapy redis在此之前,應該已經裝好了scrapy和redis 新建乙個scrapy專案和爬蟲檔案 使用scrapy redis的去重組件,在...

基於scrapy redis部署分布式爬蟲

基於scrapy redis部署分布式爬蟲 準備工作,主機需要開啟redis服務,進入redis目錄,在命令列工具中輸入 redis server redis windows.conf 3.使用pycharm開啟專案,找到settings檔案,配置scrapy專案使用的排程器及過濾器 4.修改spi...