讀取流程:
1,客戶端通過rpc請求訪問namenode(請求讀取)
2,namenode查詢請求的檔案的元資料,獲取到檔案的儲存路徑,然後將檔案所對應的全部或者部分檔案塊的儲存位址放入乙個佇列中,返回給客戶端.
3,客戶端收到佇列之後,依次遍歷佇列,讀取檔案塊.
4,客戶端從佇列中獲取到第乙個檔案塊的儲存位址,從中選出乙個最近的datanode來進行讀取.
5.讀取完成之後校驗檔案塊的大小是否符合,如果符合就繼續讀取第二個檔案塊;如果不符合就通知namenode當前檔案塊已經損壞,然後從其他節點重新讀取當前的檔案塊的其他複本.
6.當客戶端將這次的檔案塊全部讀取完成之後,會再次訪問namenode請求下一批檔案塊的位址
7.當客戶端讀取完所有的檔案塊之後,通知namenode關閉檔案
Hadoop大資料分布式檔案系統hdfs的工作機制
hdfs集群分為兩大角色 namenode datanode namenode負責管理整個檔案系統的元資料 datanode 負責管理使用者的檔案資料塊 namenode工作機制 d checkpoint操作的觸發條件配置引數 dfs.namenode.checkpoint.check.period...
分布式檔案系統 HDFS
hdfs源於google發表的乙份gfs hdfs是hadoop專案的核心子專案,是分布式計算中資料儲存管理的基礎,可以執行在廉價機器上,具有高容錯 高可靠性 高可擴充套件性 高獲得性 高吞吐率等特性,為超大資料集的應用處理帶來極大便利。1 hdfs的優點 1 高容錯性 資料自動儲存多個版本,通過增...
分布式檔案系統HDFS
以 bin dfs dfs 開頭的shell命令方式 1 在hdfs中為hadoop使用者建立乙個使用者目錄 hadoop使用者 2 在使用者目錄下建立乙個input目錄 3 在hdfs的根目錄下建立乙個名稱為input的目錄 4 刪除hdfs根目錄中的 input 目錄 在該檔案裡面可以隨意輸入一...