---恢復內容開始---
storm
是個實時的、分布式以及
具備高容錯
的計算系統
。同hadoop一樣storm也可以處理大批量的資料,然而
storm在保證高可靠性的前提下還可以讓處理進行的更加實時
;也就是說,所有的資訊都會被處理。 storm同樣還具備容錯
和分布計算這些特性,這就讓storm可以擴充套件到不同的機器上
進行大批量的資料處理。
storm 與hadoop異同
1、strom服務已經開啟除非認為關閉,否者不會停止,
2、實時:storm延時低,storm資料在記憶體中,hadoop資料使用磁碟作為交換介質。
3、storm延時低 storm 資料在記憶體中,網路直傳,記憶體計算,省去了批處理時間。
4、storm吞吐量不及hadoop。不適合批處理。
storm集群主要由乙個主節點和一群工作節點(worker node)組成,通過 zookeeper進行協調。
storm繫結構簡圖:
•主節點:
• 主節點通常執行乙個後台程式 ——
nimbus
,用於響應分布在集群中的節點,分配任務和監測故障。這
個很類似於hadoop中的
job tracker。•
工作節點:
• 工作節點同樣會執行乙個後台程式 —— supervisor,用於收聽工作指派並基於
要求執行工作程序
。每個工作節點都是topology中乙個子集的實現。而nimbus和supervisor之間的協調則通過zookeeper系統或
者集群。
•zookeeper
• zookeeper是完成
supervisor和nimbus之間協調的
服務。而應用程式實現實時的邏輯則被封裝進storm
中的 「 topology」 。 topology則是一組由spouts(資料來源)和bolts(資料操作)通過stream
groupings進行連線的圖。下面對出現的術語進行更深刻的解析。
•spout:
• 簡而言之,spout從**處讀取資料並放入topology。 spout分成可靠和不可靠兩種;當storm接收失敗
時,可靠的spout會對 tuple(元組,資料項組成的列表)進行重發;而不可靠的spout不會考慮接收成
功與否只發射一次。而spout中最主要的方法就是 nexttuple(),該方法會發射乙個新的tuple到
topology,如果沒有新tuple發射則會簡單的返回。
•bolt:
• topology中所有的處理都由bolt完成。 bolt可以完成任何事,比如:連線的過濾、聚合、訪問檔案/資料
庫、等等。 bolt從spout 中接收資料並進行處理,如果遇到複雜流的處理也可能將tuple傳送給另乙個bolt
進行處理。而bolt中最重要的方法是execute(),以新的 tuple作為引數接收。不管是spout還是bolt,
如果將tuple發射成多個流,這些流都可以通過declarestream()來宣告。
topology
– –計算邏輯的封裝
– –由spouts和bolts組成的圖,通過stream grouping將圖中的spouts
和bolts連線起來
---恢復內容結束---
學習筆記一
lisp 最重要的一種執行模式之一 repl that endless cycle of reading,evaluating,and printing is why it s called the read eval print loop or repl.第乙個lisp程式 在repl模式下執行l...
學習筆記 一
什麼是seo?搜尋引擎優化 search engine optimization,簡稱seo 是一種利用搜尋引擎的搜尋規則來提高目的 在有關搜尋引擎內的排名的方式。深刻理解是 通過seo這樣一套基於搜尋引擎的營銷思路,為 提供生態式的自我營銷解決方案,讓 在行業內佔據領先地位,從而獲得品牌收益。研究...
學習筆記一
今天兩節課,也就是兩個問題的分析裝配線排程問題和矩陣鏈相乘ai,j中的 i,j 分別表示的是第 i 條線路的第 j 個步驟,每個線路每條步驟都有不同的用時,還有t i j中的 i,j 表示的就是從第 i 條線路第 j 步到達另外一條線路的第 j 1 步要用的時間,我們可以用如下 表示每一步花費的時間...