hdfs
的工作原理
hadoop
分布式檔案系統
(hdfs)
是一種被設計成適合執行在通用硬體上的分布式檔案系統。
hdfs
是乙個高度容錯性的系統,
適合部署在廉價的
機器上。
它能提供高吞吐量的資料訪問,
非常適合大規模資料集上的應用。要理解
hdfs
的內部工作原理,首先要理解什麼是分布式
檔案系統。
、分布式檔案系統
多台計算機聯網協同工作
有時也稱為乙個集群
就像單台系統一樣解決某種問題,這樣的系
統我們稱之為分布式系統。
分布式檔案系統是分布式系統的乙個子集,
它們解決的問題就是資料儲存。
換句話說,
它們是橫跨在多台計算機上的儲存系統。
儲存在分布式檔案系統上的資料自動分布在不同的節點
上。分布式檔案系統在大資料時代有著廣泛的應用前景,
它們為儲存和處理來自網路和其它地方
的超大規模資料提供所需的擴充套件能力。
、分離元資料和資料:
namenode
和datanode
儲存到檔案系統中的每個檔案都有相關聯的元資料。
元資料報括了檔名、i節點
(inode)
數、資料塊位置等,而資料則是檔案的實際內容。
在傳統的檔案系統裡,
因為檔案系統不會跨越多台機器,
元資料和資料儲存在同一臺機器上。
為了構建乙個分布式檔案系統,
讓客戶端在這種系統中使用簡單,
並且不需要知道其他客戶
端的活動,那麼元資料需要在客戶端以外維護。
hdfs
的設計理念是拿出一台或多台機器來
儲存元資料,並讓剩下的機器來儲存檔案的內容。
namenode
和datanode
是hdfs
的兩個主要元件。其中,元資料儲存在
namenode
上,而資料儲存在
datanode
的集群上。
namenode
不僅要管理儲存在
hdfs
上內容的元資料,而
且要記錄一些事情,
比如哪些節點是集群的一部分,
某個檔案有幾份副本等。
HDFS的工作原理
目錄 核心知識 hdfs寫資料流程 hdfs讀資料流程 secondarynamenode元資料checkpoint機制 1.hdfs集群分為兩大角色 namenode datanode secondary namenode 2.namenode負責管理整個檔案系統的元資料 3.datanode 負...
HDFS架構簡述
hdfs架構簡述 一 hdfs簡介 hdfs hadoop distributed file system hadoop分布式檔案系統。是基於流資料模式訪問和處理超大檔案的需要而開發的,可以執行於廉價的伺服器上。它所具有的高容錯,高可靠性,高可擴充套件性,高獲得性,高吞吐率等特徵為海量資料提供了不怕...
Hadoop中HDFS工作原理
hadoop其實並不是乙個產品,而是一些獨立模組的組合。主要有分布式檔案系統hdfs和大型分布式資料處理庫mapreduce。由於目前主要用到hdfs,所以這裡看一下它的工作原理,以及相應的介紹下配置。什麼是hdfs?hadoop distributed file system,字面意思,hadoo...