hadoop 2.x
* common
* hdfs
儲存資料
namenode
*儲存檔案系統的元資料,命名空間namespace
datanode
*儲存資料
secondarynamenode
*輔助namenode工作(週期性的合併倆個檔案)
* yarn
hadoop 作業系統
data 資料作業系統
container 容器中執行任務 docker
resourcemanager
* 整個集群資源的管理和排程
nodemanager
* 管理每個節點的資源和排程
* mapreduce
分而治之的思想
* map 分
* reduce 合併
input -> map -> reduce ->output
分布式的並行的計算框架
*執行模式
本地模式
yarn模式
Hadoop相關知識點
乙個分布式計算平台,以hadoop分布式檔案系統 hdfs mapreduce為核心。易擴充套件 方便向集群中新增節點。可靠 容錯 多個副本。高效 在節點間動態移動資料。hdfs mapreduce yarn common。zookeeper hive hbase pig。輸入資料 切片 map s...
hadoop相關介紹
大資料 指無法在一定時間範圍內用常規軟體進行捕捉,管理和處理的資料集合,需要新處理模式才能具有更強的決策力,洞察發現力,和流程優化的能力的海量 高增長率和多樣化的資訊資產。主要解決海量資料的儲存,海量資料的分析計算 tb,pb,eb 特點 大量 volume 高速 velocity 多樣 varie...
Hadoop相關總結
1 hadoop預設不支援lzo壓縮,如果需要支援lzo壓縮,需要新增jar包,並在hadoop的cores site.xml檔案中新增相關壓縮配置。2 hadoop常用埠號 3 hadoop配置檔案以及簡單的hadoop集群搭建 4 hdfs讀流程和寫流程 5 mapreduce的shuffle過...