基於JMS的分布式爬蟲系統的設計與實現7

隨著網際網路技術的飛速發展，網路資訊以指數型趨勢高速增長。對於乙個要對資料進行統計分析的系統而言，蒐集資料的過程是冗長枯燥的。基於這一現實，分布式爬蟲系統獲得了發展的契機。系統通過多台伺服器的協調執行，成倍地提高了爬蟲的效率。當然，分布式系統在獲得效率提公升的同時也大大增加了系統的複雜程度，開發人員需要考慮多方面因素以確保系統的正常運轉。

本文對分布式爬蟲系統的架構做了深入的討論，給出了選擇該架構的原因。專案使用了jms訊息佇列技術在節點之間非同步傳遞訊息，起到應用解耦的效果。使用apache出品的activemq作為jms伺服器，能夠跨語言跨平台傳遞訊息，而且具有延遲接受的特性，一定程度上降低了網路延遲對系統效能的阻礙。中心節點的任務分配採用執行緒池技術，緩解了由於任務積累產生的效率瓶頸。

本文先介紹了專案研究背景，然後介紹了分布式爬蟲相關知識和本專案所用技術，最後展示了專案的需求分析和體系結構。最終實現的分布式爬蟲系統能夠做到中心節點分配爬蟲任務，任務節點執行爬蟲程式並儲存資料。同時系統針對一些分布式系統常用的效能需求做了設計，提高了系統的可擴充套件性和可靠性。

基於JMS的分布式爬蟲系統的設計與實現7

kafka的分布式爬蟲系統

基於scrapy redis的分布式爬蟲配置

基於scrapy redis部署分布式爬蟲

基於JMS的分布式爬蟲系統的設計與實現7

kafka的分布式爬蟲系統

基於scrapy redis的分布式爬蟲配置

基於scrapy redis部署分布式爬蟲

相關推薦