HDFS入門之基本概念

2021-08-15 05:50:54 字數 822 閱讀 8067

hdfs 是 hadoop distribute file system 的簡稱,意為:hadoop 分布式檔案系統。是 hadoop 核心元件之一,作為最底層的分布式儲存服務而存在。

分布式檔案系統解決的問題就是大資料儲存。它們是橫跨在多台計算機上的儲存系統。分布式檔案系統在大資料時代有著廣泛的應用前景,它們為儲存和處理超大規模資料提供所需的擴充套件能力。

硬體故障是常態, hdfs 將有成百上千的伺服器組成,每乙個組成部分都有可能出現故障。因此故障的檢測和自動快速恢復是 hdfs

的核心架構目標。

hdfs 上的應用與一般的應用不同,它們主要是以流式讀取資料hdfs

被設計成適合批量處理,而不是使用者互動式的。相較於資料訪問的反應時間,更注重資料訪問的高吞吐量。

典型的 hdfs 檔案大小是 gb 到 tb 的級別。所以,hdfs

被調整成支援大檔案。它應該提供很高的聚合資料頻寬,乙個集群中支援數百個節點,乙個集群中還應該支援千萬級別的檔案。

大部分 hdfs 應用對檔案要求的是 write-one-read-many

訪問模型。乙個檔案一旦建立、寫入、關閉之後就不需要修改了。這一假設簡化了資料一致性問題,使高吞吐量的資料訪問成為可能。

移動計算的代價比之移動資料的代價低。乙個應用請求的計算,離它操作的資料越近就越高效,這在資料達到海量級別的時候更是如此。將計算移動到資料附近,比之將資料移動到應用所在顯然更好。

在異構的硬體和軟體平台上的可移植性。這將推動需要大資料集的應用更廣泛地採用 hdfs 作為平台

hadoop起步之HDFS基本概念

1 適用範圍 1 適用於一次寫入,多次讀取的大檔案儲存方案 2 不適用於低延遲的需求方案,可以考慮hbase 3 不適用於海量小檔案儲存 metadata會膨脹 2 兩個角色 1 namenode,主要管理檔案目錄樹,檔案元資料,並知曉乙個檔案的block都在哪些datanode上 2 datano...

HDFS的基本概念

當一台計算機無法儲存海量資料時,就對他進行分割槽,分開在若干臺計算機上。然而普通的檔案系統無法勝任這一工作,於是,分布式檔案系統就應運而生。1.資料塊 每個硬碟都有預設的資料塊大小,大小不一。他們是磁碟讀寫資料的最小單位。hdfs中有同樣的概念,但是根據其海量資料的要求,一般乙個塊大小為 128 m...

HDFS學習 基本概念

hdfs是hadoop的核心之一,是乙個分布式檔案系統。所謂分布式檔案系統,就是多個節點通過網路形成乙個整體系統,它和單機檔案系統的最大區別在於,可以儲存乙個遠超單機儲存能力的檔案。其儲存方式大致就是 把檔案分隔成若干個份,存放在不同的節點上,再由乙個角色 hdfs中是namenode 負責記錄檔案...