圖2
:hdfs
結構示意圖
上圖中展現了整個
hdfs
三個重要角色:
namenode
、datanode
和client
。namenode
可以看作是分布式檔案系統中的管理者,主要負責管理檔案系統的命名空間、集群配置資訊和儲存塊的複製等。
namenode
會將檔案系統的
meta-data
儲存在記憶體中,這些資訊主要包括了檔案資訊、每乙個檔案對應的檔案塊的資訊和每乙個檔案塊在
datanode
的資訊等。
datanode
是檔案儲存的基本單元,它將
block
儲存在本地檔案系統中,儲存了
block
的meta-data
,同時周期性地將所有存在的
block
資訊傳送給
namenode
。client
就是需要獲取分布式檔案系統檔案的應用程式。
這裡通過三個操作來說明他們之間的互動關係。
檔案寫入:
client
向namenode
發起檔案寫入的請求。
namenode
根據檔案大小和檔案塊配置情況,返回給
client
它所管理部分
datanode
的資訊。
client
將檔案劃分為多個
block
,根據datanode
的位址資訊,按順序寫入到每乙個
datanode
塊中。
檔案讀取:
client
向namenode
發起檔案讀取的請求。
namenode
返回檔案儲存的
datanode
的資訊。
client
讀取檔案資訊。
檔案block複製:
namenode
發現部分檔案的
block
不符合最小複製數或者部分
datanode失效。
通知datanode
相互複製
block
。datanode
開始直接相互複製。
分布式計算開源框架Hadoop的學習 提綱
author 岑文初email wenchu.cenwc alibaba inc.com 引.2 what is hadoop.2 why is hadoop.6 how to use hadoop tips.7 環境 7 部署考慮 7 實施步驟 7 hadoop command 10 hadoop...
Hadoop分布式框架簡介
原文 分布式系統基本原理 分布式系統被設計成可以儲存和管理大資料量的資訊的系統,並為這些資料提供對外的訪問功能 通過網路 現在已經有許多的分布式系統用各種不同的方法解決了這個問題。nfs,the network file system,是目前最普遍的分布式系統。它也是還在使用的最老的分布式系統之一。...
hadoop系統 分布式計算框架MapReduce
單機程式計算流程 輸入資料 讀取資料 處理資料 寫入資料 輸出資料 hadoop計算流程 input data 輸入資料 inputformat 對資料進行切分,格式化處理 map 將前面切分的資料做map處理 將資料進行分類,輸出 k,v 鍵值對資料 shuffle sort 將相同的資料放在一起...