hdfs
技術背景,目標
高可用,面向硬體故障設計的hdfs,故障檢測,快速和自動恢復是hdfs最主要的設計目標。
高吞吐,可適當犧牲延時。主要場景是資料批處理,非互動式。
大規模集群,資料量巨大,不僅單個集群的檔案數量很多,而且單個檔案巨大(>1tb)
適用場景
商用機器,低配置機器
大規模集群
資料批處理,寫少讀多
優勢和劣勢
核心思想
架構:主從架構,
資料複製
a. replica placement:三副本為例,一副本在rack1,兩副本在rack2,可以提高寫效能而且不會影響資料可靠性。
b. replica selection:就近讀取,同地域優先,好處是降低頻寬。
元資料持久化
高可用
底層原理
通訊協議
資料組織
已有實現和對比
tfs,是blob fs,適合小檔案儲存;元資料巨大,一般儲存不了,記憶體僅儲存id,真實元資料對映到外部資料庫。
HDFS 快照 了解
含義 快照不會複製所有檔案,而是記錄檔案變化 1 開啟指定目錄的快照功能 hdfs dfsadmin allowsnapshot 路徑 2 對目錄建立快照 hdfs dfs createsnapshot 路徑 3 指定名稱建立快照 hdfs dfs createsnapshot 路徑 名稱 4 重新...
HDFS原理了解 學習筆記
hdfs hadoop distributed file system hadoop分布式檔案系統 分布式,感覺好厲害的樣子啊,有網路檔案系統,有本地檔案系統,現在又多了乙個分布式的檔案系統。之所以是要分布式,是資料要放到多個主機上面去。放的東西在集群中,就是分布式啦!想要了解這個東東,先找一張原理...
HDFS相關命令使用與了解
第五章 hdfs 一 操作hdfs 1 web console 埠50070 2 命令列 有兩種型別 1 普通操作命令 hdfs dfs 命令 mkdir 在hdfs上建立目錄 hdfs dfs mkdir aaa hdfs dfs mkdir bbb ccc 如果父目錄不存在,使用 p引數先建立父...