蒐集 Hadoop簡單了解

2022-02-16 17:04:14 字數 665 閱讀 7055

根本作用:任務的分離,結果的彙總。

定義:幫助使用者在不必詳細了解分布式底層細節的情況下,開發分布式程式。充分的利用集群的威力進行高速運算和儲存。

原理:hadoop 實現了乙個分布式檔案系統(hadoop distributed file system),簡稱 hdfs。

核心設計:hdfs 和 mapreduce。 hdfs 為海量的資料提供了儲存,mapreduce為海量的資料提供了計算。

優點和特點:1. 高可靠性。2. 高擴充套件性。3. 高效性。4. 高容錯性。5. 低成本。

檔案操作:hdfs 並不是乙個萬能的檔案系統。它的主要目的是支援以流的形式訪問寫入的大型檔案。

核心元件:  1. gfs(google file system)乙個分布式檔案系統,隱藏下層負載均衡,冗餘複製等細節,對上層程式提供了乙個統一的檔案系統api介面。

2. mapreduce  大多數的分布式運算可以抽象為 mapreduce 操作。map 是把輸入 input 分解成中間的 key/value對。reduce 把 key/value 合成最終輸出 output。這兩個函式由程式設計師提供非系統,下層設施把 map 和 reduce 操作分布在集群上執行,並把結果儲存在 gfs 上。

3. bigtable  乙個大型分布式資料庫,這個資料庫不是關係型資料庫。是乙個巨大的**,用來儲存結構化的資料。

hadoop簡單了解

四大模組 三大核心 hdfs mapreduce yarn 生態圈 分布式系統 hdfs檔案系統的介紹 分而治之 將大檔案 大批量檔案,分布式存放在大量伺服器上,以便於採取分而治之的方式對海量資料進行運算分析 重點概念 檔案切塊副本存放元資料 namenode提供元資料服務,元資料資訊要載入到記憶體...

hadoop之 yarn (簡單了解)

yarn通過兩個 守護執行緒提供核心服務 resourcemanager,管理集群所有資源的切分以及作業的排程與監控 nodemanager,執行在集群所有節點上,啟動並監控容器的執行狀況,並負責向resourcemanager匯報。在linux上,hadoop是通過cgroup技術實現contai...

hadoop 相關配置蒐集

1.hadoop多目錄掛載 配置放在 hadoop 2.7.1 etc hadoop hdfs site.xml 2.hdfs常用埠 引數描述 預設 配置檔案 例子fs.default.name namenode rpc互動埠 namenode web管理埠 50070 hdfs site.xml ...