Hadoop學習筆記(5) HDFS介紹

2021-08-21 14:05:42 字數 620 閱讀 7681

它是乙個檔案系統,用於儲存檔案,通過統一的命名空間——目錄樹來定位檔案。它是分布式的,由很多伺服器聯合起來實現其功能,集群中的伺服器有各自的角色;

hdfs中的檔案在物理上是分塊儲存(block),塊的大小可以通過配置引數( dfs.blocksize)來規定,預設大小在hadoop2.x版本中是128m,老版本中是64m

hdfs檔案系統會給客戶端提供乙個統一的抽象目錄樹,客戶端通過路徑來訪問檔案,形如:hdfs://namenode:port/dir-a/dir-b/dir-c/file.data

目錄結構及檔案分塊資訊(元資料)的管理由namenode節點承擔,namenode是hdfs集群主節點,負責維護整個hdfs檔案系統的目錄樹,以及每乙個路徑(檔案)所對應的block塊資訊(block的id,及所在的datanode伺服器)

檔案的各個block的儲存管理由datanode節點承擔,datanode是hdfs集群從節點,每乙個block都可以在多個datanode上儲存多個副本(副本數量也可以通過引數設定dfs.replication)

hdfs是設計成適應一次寫入,多次讀出的場景,且不支援檔案的修改,適合用來做資料分析,並不適合用來做網盤應用,因為,不便修改,延遲大,網路開銷大,成本太高。

hadoop學習筆記(HDFS)

hdfs的設計基礎與目標 1 硬體錯誤是常態,因此需要冗餘。2 為大資料而生,流式讀寫,批量讀取而非隨機讀寫。擅長資料分析而不是事務處理。3 大規模資料集。4 一次寫多次讀邏輯設計,即一旦寫入,只能讀,不能修改。5 程式才用 資料就近 原則分配節點執行。hdfs的可靠性 冗餘副本策略 機架策略 心跳...

hadoop學習筆記(二) HDFS

定義 hdfs hadoop distributed file system 它是乙個檔案系統,用於儲存檔案,通過目錄樹來定位檔案,它是分布式的,由很多伺服器聯合起來實現其功能。場景 適合一次寫入,多次讀出的場景,且不支援檔案的修改,適合用來做資料分析,不適合做網盤應用。優點 1.高容錯性 資料儲存...

HADOOP學習筆記(一) HDFS

hdfs,它是乙個檔案系統,用於儲存檔案,通過目錄樹來定位檔案 其次,它是分布式的,由很多伺服器聯合起來實現其功能,集群中的伺服器有各自的角色。hdfs的設計適合一次寫入,多次讀出的場景,且不支援檔案的修改。適合用來做資料分析,並不適合用來做網盤應用。namenode 它維護著整個檔案系統的檔案資料...