以block塊的形式將大檔案進行相應的儲存
1* 64m
2*128m
檔案線性切割成塊:偏移量offset(byte)
block分散儲存在集群節點中
單一檔案block大小一致,檔案與檔案可以不一致
block可以設定副本數,副本分散在不同的節點中,副本數不要超過節點數量
檔案上傳可以設定block大小和副本數
已上傳的檔案block副本數可以調整,大小不變
只支援一次寫入多次讀取 同一時刻只有乙個寫入者
namenode 老闆
1,掌握全域性 管理dn的資訊,管理元資料
2,接收秘書的請求 讀寫
3,與dn之間進行相應的通訊
datanode 員工
1.幹活的------儲存資料
2,匯報自己的情況
3,接受秘書的安排
寫操作
1,有乙個大檔案
2,client會將大檔案進行切塊
大檔案的大小/128m = block塊數
3,向nn匯報
1)塊數
2)檔案的大小
3)檔案的許可權
4)檔案的屬主
5)檔案的上傳時間
for(block block:block)在這裡插入描述
HDFS檔案儲存
理論上hdfs中儲存乙個檔案時會被分成多個block,這些block應該會存放在不同的節點中。例如我們hdfs中有乙個檔案hdfs dfs put flink 1.8.2 bin scala 2.11.tgz 這個檔案被分成了三個block,分別是block0 block1 block2 這三個bl...
hadoop的HDFS檔案儲存
1 什麼是hdfs?hdfs適合做 儲存大檔案。上g t甚至p。一次寫入,多次讀取。並且每次作業都要讀取大部分的資料。搭建在普通商業機群上就可以了。雖然會經常宕機,但hdfs有良好的容錯機制。hdfs不適合做 實時資料獲取。如果有這個需求可以用hbase。很多小檔案。因為namenode要儲存hdf...
HDFS儲存檔案的過程詳解
以下內容基本都是自己的語言進行描述的,並不全是官方的說法,若有 說的不對可以在下面進行交流。一 角色 namenode datanode client 1 namenode namenode 負責維護整個檔案系統的資訊,包括 整個檔案樹,檔案的塊分布資訊,檔案系統的元資料,資料複製策略等 以下簡稱n...