storm入門之第一章
spout龍捲,讀取原始資料為bolt提供資料
bolt雷電,從spout或者其他的bolt接收資料,並處理資料,處理結果可作為其他bolt的資料來源或最終結果
nimbus雨雲,主節點的守護程序,負責為工作節點分發任務
topology 拓撲結構,storm的乙個任務單元
define field(s) 定義域,由spout或者bolt提供,被bolt接收
storm是乙個分布式的,可靠的,容錯的資料流處理系統。它會把工作任務委託給不同型別的元件,每個元件負責處理一項簡單特定的任務。storm集群的輸入流由乙個被稱作spout的元件管理,spout把資料傳遞給bolt,bolt可以把資料儲存起來,也可以把資料傳遞給其他的bolt。
乙個storm集群就是在一連串的bolt之間轉換spout傳過來的資料。
1、字幕作為資料輸入流——subtitles source
2、用乙個spout讀取乙個檔案(socket,通過http,或者其他)——readsubtitles spout
3、文字行被spout傳給乙個bolt,再被bolt按單詞切割——separatewordsbolt
4、單詞流被傳給另乙個bolt,在這裡每個單詞與一張政治人名列表比較。每遇到乙個匹配的名詞,第二個bolt在資料庫中為這個名詞加上1——politicannamecounterbolt
可以隨時查詢資料庫檢視結果,而且這些技術是隨著資料到達實時更新。
在整個storm集群定義每個bolt和spout的並行性級別,就可以無限地擴充套件拓撲結構。
有哪些典型的storm應用案例?
資料處理流——如上例,不像其他的流處理系統,storm不需要中間佇列
連續計算——連續傳送資料到客戶端,使它們能夠實時更新並顯示結果,如**指標
分布式遠端過程呼叫——頻繁的cpu密集性操作並行化
對於乙個storm集群,乙個連續執行的主節點組織若干節點工作。
在storm集群中,有兩類節點:主節點master node和工作節點worker nodes。主節點執行著乙個叫做nimbus的守護程序。這個守護程序負責在集群中分發**,為工作節點分配任務,並監控故障,supervisor守護程序作為拓撲的一部分執行在工作節點上。乙個storm拓撲結構在不同的機器上執行著眾多的工作節點。
因為storm在zookeeper或者本地磁碟上維持所有的集群狀態,守護程序可以是無狀態的而且失效或重啟時不會影響整個系統的健康。
下面列出一些zeromq的特性:
備註:storm用push/pull sockets
參考鏈結
Storm入門之第一章
譯者 譯者注 本文翻譯自 getting started with storm 本書中所有storm相關術語都用斜體英文表示。這些術語的字面意義翻譯如下,由於這個工具的名字叫storm,這些術語一律按照氣象名詞解釋 下面的術語跟氣象就沒有關係了 本文是該書的第一章。基礎知識 storm是乙個分布式的...
Storm入門之第一章
storm入門之第一章 譯者注 本文翻譯自 getting started with storm 本書中所有storm相關術語都用斜體英文表示。這些術語的字面意義翻譯如下,由於這個工具的名字叫storm,這些術語一律按照氣象名詞解釋 下面的術語跟氣象就沒有關係了 本文是該書的第一章。基礎知識 sto...
第一章 入門
第一章 入門。1.linux應用程式表現為2種特殊型別的檔案 可執行檔案和指令碼檔案,對應windows下的。exe和批處理。linux不要求可執行檔案或指令碼有特殊的餓副檔名,檔案系統屬性用來表明乙個檔案是否為可執行程式。2.我們是與乙個叫bash的指令碼進行互動的,指令碼裡可執行檔案的執行要麼在...