Hadoop的基礎介紹

common 是為hadoop其他元件提供公共庫的，是乙個非常基礎層次

hdfs是負責整個分布式檔案的儲存，利用許多的伺服器進行資料的儲存

yarn專門負責資源的排程

hadoop2.0後，mapreduce變成是專門做離線處理和批處理的

spark是乙個類似hadoop mapreduce的通用並行框架，也是使用reduce函式去做資料處理。但是和mapreduce不同的是：spark是基於記憶體計算，而mapreduce是基於磁碟運算，mapreduce在進行資料處理時都要將資料寫到磁碟去，處理完成後要將資料寫到hdfs上去，所以spark的效能要比mapreduce要高。

hive是整個hadoop生態圈中實現資料倉儲的功能，資料倉儲是專門用於企業決策分析的。

支援sql語言，hive架構在hadoop之上，所以hive會將sql語句轉化為mapreduce作業

pig是乙個輕量級的程式語言

hadoop上的工作流管理器，

提供分布式協調一致性服務，比如：分布式管理鎖，集群管理等

列族資料庫，hbase支援隨機讀寫和實時應用

乙個高可用的，高可靠的，分布式海量日誌採集，聚合和傳輸的系統，所以flume是專門幫你收集日誌的。

用於在hadoop與傳統資料庫之間進行資料傳輸，sqoop可以進行關聯式資料庫到 hdfs， hbase，hive互導。利用sqoop可以將關聯式資料庫中的資料都匯入hadoop平台上去。同理也可以將hadoop上的資料匯入關聯式資料庫中。

參考：

Hadoop的基礎介紹

hadoop之hadoop基礎介紹

hadoop基礎框架介紹

hadoop基礎元件介紹

Hadoop的基礎介紹

hadoop之hadoop基礎介紹

hadoop基礎框架介紹

hadoop基礎元件介紹

相關推薦