Strom學習筆記一

2022-08-10 14:54:20 字數 1908 閱讀 2255

---恢復內容開始---

storm

是個實時的、分布式以及

具備高容錯

的計算系統

。同hadoop一樣storm也可以處理大批量的資料,然而

storm在保證高可靠性的前提下還可以讓處理進行的更加實時

;也就是說,所有的資訊都會被處理。 storm同樣還具備容錯

和分布計算這些特性,這就讓storm可以擴充套件到不同的機器上

進行大批量的資料處理。

storm 與hadoop異同

1、strom服務已經開啟除非認為關閉,否者不會停止,

​2、實時:storm延時低,storm資料在記憶體中,hadoop資料使用磁碟作為交換介質。

3、storm延時低 storm 資料在記憶體中,網路直傳,記憶體計算,省去了批處理時間。

4、storm吞吐量不及hadoop。不適合批處理。

storm集群主要由乙個主節點和一群工作節點(worker node)組成,通過 zookeeper進行協調。

storm繫結構簡圖:

主節點:

• 主節點通常執行乙個後台程式 —— 

nimbus

,用於響應分布在集群中的節點,分配任務和監測故障。這

個很類似於hadoop中的

job tracker。• 

工作節點:

• 工作節點同樣會執行乙個後台程式 —— supervisor,用於收聽工作指派並基於

要求執行工作程序

。每個工作節點都是topology中乙個子集的實現。而nimbus和supervisor之間的協調則通過zookeeper系統或

者集群。

zookeeper

• zookeeper是完成

supervisor和nimbus之間協調的

服務。而應用程式實現實時的邏輯則被封裝進storm

中的 「 topology」 。 topology則是一組由spouts(資料來源)和bolts(資料操作)通過stream

groupings進行連線的圖。下面對出現的術語進行更深刻的解析。

spout:

• 簡而言之,spout從**處讀取資料並放入topology。 spout分成可靠和不可靠兩種;當storm接收失敗

時,可靠的spout會對 tuple(元組,資料項組成的列表)進行重發;而不可靠的spout不會考慮接收成

功與否只發射一次。而spout中最主要的方法就是 nexttuple(),該方法會發射乙個新的tuple到

topology,如果沒有新tuple發射則會簡單的返回。

bolt:

• topology中所有的處理都由bolt完成。 bolt可以完成任何事,比如:連線的過濾、聚合、訪問檔案/資料

庫、等等。 bolt從spout 中接收資料並進行處理,如果遇到複雜流的處理也可能將tuple傳送給另乙個bolt

進行處理。而bolt中最重要的方法是execute(),以新的 tuple作為引數接收。不管是spout還是bolt,

如果將tuple發射成多個流,這些流都可以通過declarestream()來宣告。

topology

– –計算邏輯的封裝

– –由spouts和bolts組成的圖,通過stream grouping將圖中的spouts

和bolts連線起來

---恢復內容結束---

學習筆記一

lisp 最重要的一種執行模式之一 repl that endless cycle of reading,evaluating,and printing is why it s called the read eval print loop or repl.第乙個lisp程式 在repl模式下執行l...

學習筆記 一

什麼是seo?搜尋引擎優化 search engine optimization,簡稱seo 是一種利用搜尋引擎的搜尋規則來提高目的 在有關搜尋引擎內的排名的方式。深刻理解是 通過seo這樣一套基於搜尋引擎的營銷思路,為 提供生態式的自我營銷解決方案,讓 在行業內佔據領先地位,從而獲得品牌收益。研究...

學習筆記一

今天兩節課,也就是兩個問題的分析裝配線排程問題和矩陣鏈相乘ai,j中的 i,j 分別表示的是第 i 條線路的第 j 個步驟,每個線路每條步驟都有不同的用時,還有t i j中的 i,j 表示的就是從第 i 條線路第 j 步到達另外一條線路的第 j 1 步要用的時間,我們可以用如下 表示每一步花費的時間...