詳解HDFS檔案讀寫流程

詳細步驟解析：

client發起檔案上傳請求，通過rpc與namenode建立通訊，namenode檢查目標檔案是否已存在，父目錄是否存在，返回是否可以上傳

client請求第乙個block該傳輸到哪些datanode伺服器上

client請求3臺datanode中的一台a上傳資料（本質上是乙個rpc呼叫，建立pipeline），a收到請求會繼續呼叫b，然後b呼叫c，將整個pipeline建立完成，後逐級返回client

client開始往a上傳第乙個block（先從磁碟讀取資料放到乙個本地記憶體快取），以packet為單位（預設64k），a收到乙個packet就會傳給b，b傳給c；a每傳乙個packet會放入乙個應答佇列等待應答。

資料被分割成乙個個packet資料報在pipeline上依次傳輸，在pipeline反方向上，逐個傳送ack（命令正確應答），最終由pipeline中第乙個datanode節點a將pipelineack傳送給client

關閉寫入流

當乙個block傳輸完成之後，client再次請求namenode上傳第二個block到伺服器

詳細步驟解析：

客戶端通過呼叫filesystem物件的open()來讀取希望開啟的檔案

client向namenode發起rpc請求，來確定請求檔案block所在的位置

namenode會視情況返回檔案的部分或者全部block列表，對於每個block，namenode 都會返回含有該 block 副本的 datanode 位址；這些返回的 dn 位址，會按照集群拓撲結構得出 datanode 與客戶端的距離，然後進行排序，排序兩個規則：網路拓撲結構中距離 client 近的排靠前；心跳機制中超時匯報的 dn 狀態為 stale，這樣的排靠後

client 選取排序靠前的 datanode 來讀取 block，如果客戶端本身就是datanode,那麼將從本地直接獲取資料(短路讀取特性)

底層上本質是建立 socket stream（fsdatainputstream），重複的呼叫父類 datainputstream 的 read 方法，直到這個塊上的資料讀取完畢

並行讀取，若失敗重新讀取

當讀完列表的 block 後，若檔案讀取還沒有結束，客戶端會繼續向namenode 獲取下一批的 block 列表

返回後續block列表

最終關閉讀流，並將讀取來所有的 block 會合併成乙個完整的最終檔案。

說明：讀取完乙個 block 都會進行 checksum 驗證，如果讀取 datanode 時出現錯誤，客戶端會通知 namenode，然後再從下乙個擁有該 block 副本的datanode 繼續讀。

read 方法是並行的讀取 block 資訊，不是一塊一塊的讀取；namenode 只是返回client請求包含塊的datanode位址，並不是返回請求塊的資料。

詳解HDFS檔案讀寫流程

hdfs讀寫流程 HDFS 讀寫流程（詳解）

hdfs讀寫流程 HDFS 檔案讀寫流程

HDFS檔案讀寫流程

詳解HDFS檔案讀寫流程

hdfs讀寫流程 HDFS 讀寫流程（詳解）

hdfs讀寫流程 HDFS 檔案讀寫流程

HDFS檔案讀寫流程

相關推薦