hadoop生態系統
廣義的hadoop
hdfs:檔案儲存系統基於硬碟
yarn:資源排程框架
mapreduce:分布式處理框架
hive:資料倉儲
rconnections:資料分析
mahout:機器學習庫
pig:指令碼語言,跟hive類似
oozie:工作流引擎,管理作業執行順序
zookeeper:使用者無感知,主節點掛掉選擇從節點作為主
flume:日誌收集框架
sqoop:資料交換框架,例如:關係型資料庫與hdfs之間的資料交換
hbase:海量資料查詢,相當於分布式檔案系統中的資料庫
spark:分布式計算框架基於記憶體
1.spark core
2.spark sql
3.spark streaming 準實時 不算是乙個標準的流式就算
4.spark ml spark mlib
kafka:訊息佇列
storm:分布式的流式計算框架python操作storm
flink:分布式的流式計算框架
hdfs讀寫流程&高可用
hdfs如何實現高可用(ha)
磁碟故障容錯
datanode故障容錯
namenode故障容錯
Hadoop生態系統
摘要 介紹hadoop生態系統,從hadoop生態系統有什麼成員,成員能做什麼和hadoop生態系統能夠提供大資料問題解決方案兩方面來認識。hadoop生態圖,通俗地說,就是hadoop核心模組和衍生的子專案。一幅hadoop生態圖,讓我想到了兩個問題。問題一 hadoop生態系統包括哪些成員?每個...
Hadoop 生態系統
hadoop是乙個分布式儲存和計算平台。主要解決海量資料的儲存與分析計算問題 1 高可靠性 hadoop底層維護多個資料副本,所以即使hadoop某個計算元素或儲存出現故障,也不會導致資料的丟失。2 高擴充套件性 在集群間分配任務資料,可方便的擴充套件數以乾計的節點。3 高效性 在mapreduce...
Hadoop生態系統
hadoop生態系統如下圖所示 hdfs hadoop distributed file system 是分布式檔案系統,是針對谷歌開發的分布式檔案系統gfs google file system 的開源實現,是hadoop兩大核心組成部分之一。hdfs有namenode和datanode兩部分,n...