HDFS讀寫流程

寫操作對操作者是無感知的。

client呼叫filesystem.create(file path)方法，去與nn進行 rpc 通訊，check該路徑的檔案是否存在以及有沒有許可權建立該檔案。假如ok，就建立乙個新檔案，但是不關聯任何的block，nn根據上傳的檔案大小和副本數計算多少塊，以及塊存放的dn，最終將這些資訊返回給客戶端，則為fsdataoutputstream （紅色為面試題）

client呼叫fsdataoutputstream.write方法，將第乙個副本寫到第乙個dn，寫完寫第二個副本，寫完寫第三個副本。當第三個副本寫完，返回給ack packet給第二個副本的dn，然後第二個dn返回ack給第乙個dn，第乙個dn返回ack給fsdataoutputstream，標識第乙個塊。然後依次寫剩餘的塊（對操作者來說是透明的）

向檔案寫入資料完成後，client呼叫fsdataoutputstream.close（）方法，關閉輸出流，flush快取區的資料報；

再呼叫fsdataoutputstream.complete(),通知nn節點寫入成功。

client端通過filesystem.open(filepath) ,去與nn進行rpc通訊，返回該檔案的部分或全部的block塊列表，也就是返回fsdata inputstream物件

client呼叫fsdata inputstream物件的read()方法，a)去與第乙個塊的最近的dn進行read,讀取完後會check。假如success，會關閉與當前dn通訊。假如fail，會記錄失敗的dn+block資訊，下次就不會讀取；那麼會去該塊的第二個dn的位址讀取。b)然後去第二個塊的最近的dn上讀取，重複check；c）假如當前block列表全部讀取完成，檔案還沒有結束，那麼filesystem會從nn獲取下一批的列表（對操作者透明，無感知，感覺就是連續的資料流）

client呼叫fsdatainputstream.close() 關閉輸入流

生產上，盡量將讀寫的動作選取dn節點

【面試題】集群dn 3個，其中乙個dn掛了，那麼乙個檔案三個副本，那麼我現在能夠正確讀取檔案內容嗎？（block miss,該如何修復？）

手動修復

自動修復

HDFS讀寫流程

hdfs讀寫流程 HDFS 讀寫流程（詳解）

hdfs讀寫流程 HDFS 檔案讀寫流程

hdfs讀寫流程

HDFS讀寫流程

hdfs讀寫流程 HDFS 讀寫流程（詳解）

hdfs讀寫流程 HDFS 檔案讀寫流程

hdfs讀寫流程

相關推薦