離線計算:批量獲取資料、批量傳輸資料、週期性批量計算資料、資料展示
代表技術:sqoop批量匯入資料、hdfs批量儲存資料、mapreduce批量計算資料、hive批量計算資料、***任務排程
主要工作:hivesql、排程平台、hadoop集群運維、資料清洗(指令碼語言)、元資料管理、資料稽查、資料倉儲模型架構
流式計算:資料實時產生、資料實時傳輸、資料實時計算、實時展示
代表技術:flume實時獲取資料、kafka/metaq實時資料儲存、storm/jstorm實時資料計算、redis實時結果快取、持久化儲存(mysql)。
storm用來實時計算源源不斷產生的資料,如同流水線生產。storm用來實時處理資料,特點:低延遲、高可用、分布式、可擴充套件、資料不丟失。提供簡單容易理解的介面,便於開發。它的運用場景有:
它和hadoop的區別如下:
storm裡面有7種型別的stream grouping
storm學習筆記(一)
1 storm介紹 storm特點 storm保障每個訊息至少能得到一次完整處理。任務失敗時,它會負責從訊息源重試訊息 系統的設計保證了訊息能夠得到快速的處理,使用 mq作為其底層訊息佇列 2 總體架構 storm中涉及的術語 3 storm在zookeeper中的資料存貯及使用 1 存貯 stor...
Storm學習記錄(一 簡介)
storm是乙個免費並開源的分布式實時計算系統。利用storm可以很容易做到可靠地處理無限的資料流,像hadoop批量處理大資料一樣,storm可以實時處理資料。storm簡單,可以使用任何程式語言。storm有如下特點 程式設計簡單 開發人員只需要關注應用邏輯,而且跟hadoop類似,storm提...
一 Storm簡介與核心概念
1 storm簡介 storm是乙個開源的 分布式實時計算系統。能夠實現高頻資料和大規模資料的實時處理。2 核心概念 topology 拓撲,將整個流程串起來 計算拓撲,由spout和bolt組成的 stream 流,資料流,水流 訊息流,抽象概念,沒有邊界的tuple構成,乙個stream由多個t...