HDFS分布式儲存及特點

2021-07-27 19:35:17 字數 652 閱讀 6671

hdfs是hadoop應用程式使用的主要分布式儲存,主要被設計在商用硬體上執行,也就是說,他必須滿足低成本、高容錯、高吞吐的特性才能在眾多的分布式儲存系統中脫穎而出。

hdfs具有主從架構,由檔案系統元資料管理namenode和實際資料儲存datanode組成。

乙個hdfs集群只有乙個namenode,可以有許多datanode,乙個集群中有乙個節點是主節點做為namenode,其他節點是從節點做為datanode。

hdfs的結構關係可以看下圖:

假設現在有乙個1000mb的檔案需要儲存,首先hdfs先將這1000mb的檔案分割成128mb大小的資料塊,分別為1,2,3….8號,先對每個塊複製2次,那麼現在每個資料其實有3份;

接下來主節點(namenode)會看看集群中的從節點(datanode)哪些的空間比較大,將8*3的這些block分配到各個節點上,但必須保證每個block只能在乙個從節點儲存,額,也就是在從節點003號上只能存3號 block一次,另外2個3號block放到其他的從節點上。

至於namenode是如何排程以及複製3次是為什麼,我們下次再續。

分布式儲存 HDFS原理

短時間內快速產生的海量的多種多樣的有價值的資料。1 分布式儲存 2 分布式計算 1 分布式批處理 當資料積累一定的時間後 假設乙個月 進行統一的處理。2 分布式流處理分布式流處理是乙個實時的處理。即資料生成後立即處理。3 機器學習 凡是 類的都是機器學習。分布式儲存 系統學習分布式儲存 過程 hdf...

HDFS 分布式儲存基石

hdfs是hadoop 分布式檔案系統。namenode與datanode 集群結構 hdfs讀取寫入過程 通過網路拓撲圖判斷距離 namenode深入 作用 儲存結構 啟動過程 開啟安全模式 不能執行資料修改操作 載入fsimage 逐個執行所有edits檔案中的每一條操作將操作合併到fsimag...

分布式架構特點

使用者多,分布廣泛 大流量,高併發 海量資料,服務高可用 安全環境惡劣,易受網路攻擊 功能多,變更快,頻繁發布 從小到大,漸進發展 以使用者為中心 免費服務,付費體驗 高效能 提供快速的訪問體驗。高可用 服務一直可以正常訪問。可伸縮 通過硬體增加 減少,提高 降低處理能力。擴充套件性 方便的通過新增...