HDFS的工作原理

核心知識

hdfs寫資料流程

hdfs讀資料流程

secondarynamenode元資料checkpoint機制

1. hdfs集群分為兩大角色：namenode、datanode (secondary namenode)

2. namenode負責管理整個檔案系統的元資料

3. datanode 負責管理使用者的檔案資料塊

4. 檔案會按照固定的大小（blocksize）切成若干塊後分布式儲存在若干臺datanode上

5. 每乙個檔案塊可以有多個副本，並存放在不同的datanode上

6. datanode會定期向namenode匯報自身所儲存的檔案block資訊，而namenode則會負責保持檔案的副本數量

7. hdfs的內部工作機制對客戶端保持透明，客戶端請求訪問hdfs都是通過向namenode申請來進行

1、根namenode通訊請求上傳檔案，namenode檢查目標檔案是否已存在，父目錄是否存在

2、namenode返回是否可以上傳

3、client請求第乙個 block該傳輸到哪些datanode伺服器上

4、namenode返回3個datanode伺服器abc

5、client請求3臺dn中的一台a上傳資料（本質上是乙個rpc呼叫，建立pipeline），a收到請求會繼續呼叫b，然後b呼叫c，將真個pipeline建立完成，逐級返回客戶端

6、client開始往a上傳第乙個block（先從磁碟讀取資料放到乙個本地記憶體快取），以packet為單位，a收到乙個packet就會傳給b，b傳給c；a每傳乙個packet會放入乙個應答佇列等待應答

7、當乙個block傳輸完成之後，client再次請求namenode上傳第二個block的伺服器。

1、跟namenode通訊查詢元資料，找到檔案塊所在的datanode伺服器

2、挑選一台datanode（就近原則，然後隨機）伺服器，請求建立socket流

3、datanode開始傳送資料（從磁碟裡面讀取資料放入流，以packet為單位來做校驗）

4、客戶端以packet為單位接收，現在本地快取，然後寫入目標檔案

簡述hdfs工作原理 HDFS的工作原理

hdfs 的工作原理 hadoop 分布式檔案系統 hdfs 是一種被設計成適合執行在通用硬體上的分布式檔案系統。hdfs 是乙個高度容錯性的系統，適合部署在廉價的機器上。它能提供高吞吐量的資料訪問，非常適合大規模資料集上的應用。要理解 hdfs 的內部工作原理，首先要理解什麼是分布式檔案系統。...

Hadoop中HDFS工作原理

hadoop其實並不是乙個產品，而是一些獨立模組的組合。主要有分布式檔案系統hdfs和大型分布式資料處理庫mapreduce。由於目前主要用到hdfs，所以這裡看一下它的工作原理，以及相應的介紹下配置。什麼是hdfs？hadoop distributed file system，字面意思，hadoo...

HDFS讀寫原理

1.hdfs讀取檔案 1 首先呼叫filesystem物件的open方法，其實獲取的是乙個distributedfilesystem的例項。2 distributedfilesystem通過rpc 遠端過程呼叫獲得檔案的第一批block的locations，同一block按照重複數會返回多個loc...

HDFS的工作原理

簡述hdfs工作原理 HDFS的工作原理

Hadoop中HDFS工作原理

HDFS讀寫原理

相關推薦