1.資料塊
資料塊是hdfs預設的最基本儲存單位,預設塊大小是64mb,hdfs中的檔案是分成資料塊儲存的,如果乙個檔案小於乙個資料塊大小,並不占用整個塊的儲存空間,檔案是多大就佔多少空間。
2.元資料節點(namenode)
namenode的職責是管理檔案系統的命名空間,所有的檔案和資料夾元資料儲存在乙個檔案系統樹中,如乙個檔案儲存在那些資料塊,分布在那些節點上等(這些資訊儲存在hdfs-site.xml中配置中設定的namenode原資訊儲存位置),version檔案存放版本資訊檔案,儲存了hdfs的版本號,edit :在客戶端進行寫操作時的修改日誌,fsimage檔案:檔案命名空間檔案。
3.資料節點(datanode)
datanode的是檔案系統真正儲存資料的地方,乙個檔案被拆分成多個block後,會將這些block儲存在對應的資料節點上。客戶端namenode發起請求,然後到對應的資料節點上寫入或讀出對應資料block。
4.從元資料節點(secondarynamenode)
secondarynamenode並不是namenode的備用節點,他和元資料節點分別負責不同的功能,其中最主要的功能是將namenode的namespace image和edit log 合併,以防止日誌檔案過大,合併後的檔案也會在元資料資料節點儲存乙份以防namenode失效進行恢復,此為還有乙個重要的工作,幫助namenode將記憶體中的元資料資訊備份到硬碟上。
大佬的詳細解釋鏈結
分布式檔案系統 HDFS
hdfs源於google發表的乙份gfs hdfs是hadoop專案的核心子專案,是分布式計算中資料儲存管理的基礎,可以執行在廉價機器上,具有高容錯 高可靠性 高可擴充套件性 高獲得性 高吞吐率等特性,為超大資料集的應用處理帶來極大便利。1 hdfs的優點 1 高容錯性 資料自動儲存多個版本,通過增...
分布式檔案系統HDFS
以 bin dfs dfs 開頭的shell命令方式 1 在hdfs中為hadoop使用者建立乙個使用者目錄 hadoop使用者 2 在使用者目錄下建立乙個input目錄 3 在hdfs的根目錄下建立乙個名稱為input的目錄 4 刪除hdfs根目錄中的 input 目錄 在該檔案裡面可以隨意輸入一...
分布式檔案系統HDFS
以 bin dfs dfs 開頭的shell命令方式 1 在hdfs中為hadoop使用者建立乙個使用者目錄 hadoop使用者 2 在使用者目錄下建立乙個input目錄 3 在hdfs的根目錄下建立乙個名稱為input的目錄 4 刪除hdfs根目錄中的 input 目錄 在該檔案裡面可以隨意輸入一...