HDFS的工作原理

2021-10-04 20:10:44 字數 1204 閱讀 6481

目錄

核心知識

hdfs寫資料流程

​hdfs讀資料流程

secondarynamenode元資料checkpoint機制

1.        hdfs集群分為兩大角色:namenode、datanode  (secondary namenode)

2.        namenode負責管理整個檔案系統的元資料

3.        datanode 負責管理使用者的檔案資料塊

4.        檔案會按照固定的大小(blocksize)切成若干塊後分布式儲存在若干臺datanode上

5.        每乙個檔案塊可以有多個副本,並存放在不同的datanode上

6.        datanode會定期向namenode匯報自身所儲存的檔案block資訊,而namenode則會負責保持檔案的副本數量

7.        hdfs的內部工作機制對客戶端保持透明,客戶端請求訪問hdfs都是通過向namenode申請來進行

1、根namenode通訊請求上傳檔案,namenode檢查目標檔案是否已存在,父目錄是否存在

2、namenode返回是否可以上傳

3、client請求第乙個 block該傳輸到哪些datanode伺服器上

4、namenode返回3個datanode伺服器abc

5、client請求3臺dn中的一台a上傳資料(本質上是乙個rpc呼叫,建立pipeline),a收到請求會繼續呼叫b,然後b呼叫c,將真個pipeline建立完成,逐級返回客戶端

6、client開始往a上傳第乙個block(先從磁碟讀取資料放到乙個本地記憶體快取),以packet為單位,a收到乙個packet就會傳給b,b傳給c;a每傳乙個packet會放入乙個應答佇列等待應答

7、當乙個block傳輸完成之後,client再次請求namenode上傳第二個block的伺服器。

1、跟namenode通訊查詢元資料,找到檔案塊所在的datanode伺服器

2、挑選一台datanode(就近原則,然後隨機)伺服器,請求建立socket流

3、datanode開始傳送資料(從磁碟裡面讀取資料放入流,以packet為單位來做校驗)

4、客戶端以packet為單位接收,現在本地快取,然後寫入目標檔案

簡述hdfs工作原理 HDFS的工作原理

hdfs 的工作原理 hadoop 分布式檔案系統 hdfs 是一種被設計成適合執行在通用硬體上的分布式檔案系統。hdfs 是乙個高度容錯性的系統,適合部署在廉價的 機器上。它能提供高吞吐量的資料訪問,非常適合大規模資料集上的應用。要理解 hdfs 的內部工作原理,首先要理解什麼是分布式 檔案系統。...

Hadoop中HDFS工作原理

hadoop其實並不是乙個產品,而是一些獨立模組的組合。主要有分布式檔案系統hdfs和大型分布式資料處理庫mapreduce。由於目前主要用到hdfs,所以這裡看一下它的工作原理,以及相應的介紹下配置。什麼是hdfs?hadoop distributed file system,字面意思,hadoo...

HDFS讀寫原理

1.hdfs讀取檔案 1 首先呼叫filesystem物件的open方法,其實獲取的是乙個distributedfilesystem的例項。2 distributedfilesystem通過rpc 遠端過程呼叫 獲得檔案的第一批block的locations,同一block按照重複數會返回多個loc...