大資料 基礎概念

2022-02-20 23:35:31 字數 442 閱讀 7334

hadoop

分布式系統基礎架構

入門學習資料:

spark

基於記憶體的計算框架

spark streaming

sparksql

spark的重要組成部分

hbase

可伸縮,面向列的分布式雲儲存系統

hive

建立在hadoop上的資料倉儲基礎架構。hive定義了簡單的類sql查詢語言,允許使用sql查詢資料。

hbase與hive的區別

hbase與hive的協作關係

kafka

分布式、分割槽、多副本的訊息發布及訂閱系統。

storm

sotrm是乙個分布式的實時計算系統,為大規模流式資料提供實時處理。適合場景:實時分析、持續計算、分布式etl。

flume

分布式和高可用的海量日誌聚合系統

spark大資料基礎概念

hive和hbase是兩種基於hadoop的不同技術 hive是一種類sql的引擎,並且執行mapreduce任務,hbase是一種在hadoop之上的nosql 的key vale資料庫。當然,這兩種工具是可以同時使用的。就像用google來搜尋,用facebook進行社交一樣,hive可以用來進...

大資料概念

在網際網路技術發展到現今階段,大量日常 工作等事務產生的資料都已經資訊化,人類產生的資料量相比以前有了 式的增長,以前的傳統的資料處理技術已經無法勝任,需求催生技術,一套用來處理海量資料的軟體工具應運而生,這就是大資料!換個角度說,大資料是 1 有海量的資料 2 有對海量資料進行挖掘的需求 3 有對...

大資料概念

1.列舉hadoop生態的各個元件及其功能 以及各個元件之間的相互關係,以圖呈現並加以文字描述。hdfs hadoop distributed file system 基於google發布的gfs 設計開發,執行在通用硬體上的分布式檔案系統。除具備其它分布式檔案系統相同特性外,還有自己的特性 高容錯...