hdfs(hadoop distributed file system)分布式檔案儲存系統。
hdfs的架構:
mapreduce的結構:
namenode:
是整個檔案系統的管理節點,它維護著整個檔案系統的檔案目錄樹,檔案、目錄的元資訊和每個檔案對應的資料塊列表。接收使用者的操作請求。
檔案包括:
fsimage:元資料映象檔案。儲存某一段時間namenode記憶體元資料資訊
edits:操作日誌檔案
fstimes:儲存最近一次checkpoint的時間
以上這些檔案是儲存在linux的檔案系統中
其中這些配置檔案對應core-site.xml的hadoop.tmp.dir屬性
datanode:
提供真實檔案資料的儲存服務
檔案塊(block): 最基本的儲存單位。對於檔案內容而言,乙個檔案的長度大小時size,那麼從檔案的o偏移開始,按照固定的大小,順序對檔案進行劃分並編號,劃分好的每一塊稱為乙個block。hdfs預設的block大小是64mb,以乙個256mb的檔案,公郵256/64=4個block。
不同於普通檔案系統的是,hdfs中,如果乙個檔案小於乙個資料塊的大小,並不占用整個資料塊的儲存空間
replication。 多副本,預設是三個,這個在hdfs-site.xml的dfs.replication屬性
hadoop學習筆記(HDFS)
hdfs的設計基礎與目標 1 硬體錯誤是常態,因此需要冗餘。2 為大資料而生,流式讀寫,批量讀取而非隨機讀寫。擅長資料分析而不是事務處理。3 大規模資料集。4 一次寫多次讀邏輯設計,即一旦寫入,只能讀,不能修改。5 程式才用 資料就近 原則分配節點執行。hdfs的可靠性 冗餘副本策略 機架策略 心跳...
hadoop學習筆記(二) HDFS
定義 hdfs hadoop distributed file system 它是乙個檔案系統,用於儲存檔案,通過目錄樹來定位檔案,它是分布式的,由很多伺服器聯合起來實現其功能。場景 適合一次寫入,多次讀出的場景,且不支援檔案的修改,適合用來做資料分析,不適合做網盤應用。優點 1.高容錯性 資料儲存...
HADOOP學習筆記(一) HDFS
hdfs,它是乙個檔案系統,用於儲存檔案,通過目錄樹來定位檔案 其次,它是分布式的,由很多伺服器聯合起來實現其功能,集群中的伺服器有各自的角色。hdfs的設計適合一次寫入,多次讀出的場景,且不支援檔案的修改。適合用來做資料分析,並不適合用來做網盤應用。namenode 它維護著整個檔案系統的檔案資料...