hadoop
分布式系統基礎架構
入門學習資料:
spark
基於記憶體的計算框架
spark streaming
sparksql
spark的重要組成部分
hbase
可伸縮,面向列的分布式雲儲存系統
hive
建立在hadoop上的資料倉儲基礎架構。hive定義了簡單的類sql查詢語言,允許使用sql查詢資料。
hbase與hive的區別
hbase與hive的協作關係
kafka
分布式、分割槽、多副本的訊息發布及訂閱系統。
storm
sotrm是乙個分布式的實時計算系統,為大規模流式資料提供實時處理。適合場景:實時分析、持續計算、分布式etl。
flume
分布式和高可用的海量日誌聚合系統
spark大資料基礎概念
hive和hbase是兩種基於hadoop的不同技術 hive是一種類sql的引擎,並且執行mapreduce任務,hbase是一種在hadoop之上的nosql 的key vale資料庫。當然,這兩種工具是可以同時使用的。就像用google來搜尋,用facebook進行社交一樣,hive可以用來進...
大資料概念
在網際網路技術發展到現今階段,大量日常 工作等事務產生的資料都已經資訊化,人類產生的資料量相比以前有了 式的增長,以前的傳統的資料處理技術已經無法勝任,需求催生技術,一套用來處理海量資料的軟體工具應運而生,這就是大資料!換個角度說,大資料是 1 有海量的資料 2 有對海量資料進行挖掘的需求 3 有對...
大資料概念
1.列舉hadoop生態的各個元件及其功能 以及各個元件之間的相互關係,以圖呈現並加以文字描述。hdfs hadoop distributed file system 基於google發布的gfs 設計開發,執行在通用硬體上的分布式檔案系統。除具備其它分布式檔案系統相同特性外,還有自己的特性 高容錯...