了解HDFS的關鍵點

2021-09-05 20:21:51 字數 549 閱讀 3167

hdfs

技術背景,目標

高可用,面向硬體故障設計的hdfs,故障檢測,快速和自動恢復是hdfs最主要的設計目標。

高吞吐,可適當犧牲延時。主要場景是資料批處理,非互動式。

大規模集群,資料量巨大,不僅單個集群的檔案數量很多,而且單個檔案巨大(>1tb)

適用場景

商用機器,低配置機器

大規模集群

資料批處理,寫少讀多

優勢和劣勢

核心思想

架構:主從架構,

資料複製

a. replica placement:三副本為例,一副本在rack1,兩副本在rack2,可以提高寫效能而且不會影響資料可靠性。

b. replica selection:就近讀取,同地域優先,好處是降低頻寬。

元資料持久化

高可用

底層原理

通訊協議

資料組織

已有實現和對比

tfs,是blob fs,適合小檔案儲存;元資料巨大,一般儲存不了,記憶體僅儲存id,真實元資料對映到外部資料庫。

HDFS 快照 了解

含義 快照不會複製所有檔案,而是記錄檔案變化 1 開啟指定目錄的快照功能 hdfs dfsadmin allowsnapshot 路徑 2 對目錄建立快照 hdfs dfs createsnapshot 路徑 3 指定名稱建立快照 hdfs dfs createsnapshot 路徑 名稱 4 重新...

HDFS原理了解 學習筆記

hdfs hadoop distributed file system hadoop分布式檔案系統 分布式,感覺好厲害的樣子啊,有網路檔案系統,有本地檔案系統,現在又多了乙個分布式的檔案系統。之所以是要分布式,是資料要放到多個主機上面去。放的東西在集群中,就是分布式啦!想要了解這個東東,先找一張原理...

HDFS相關命令使用與了解

第五章 hdfs 一 操作hdfs 1 web console 埠50070 2 命令列 有兩種型別 1 普通操作命令 hdfs dfs 命令 mkdir 在hdfs上建立目錄 hdfs dfs mkdir aaa hdfs dfs mkdir bbb ccc 如果父目錄不存在,使用 p引數先建立父...