大資料之hadoop hdfs知識通俗詳解

目錄疑問

儲存模型（重要）

架構設計

角色功能

namenode

datanode

元資料持久化

安全模式

hdfs中的snn

secondarynamenode（snn）

block的副本放置策略

hdfs寫流程

hdfs讀流程總結

分布式檔案系統那麼多，為什麼hadoop專案中還要開發乙個hdfs檔案系統？

namenode啟動過程

client和nn連線建立檔案元資料

nn判定元資料是否有效

nn處發副本放置策略，返回乙個有序的dn列表

client和dn建立pipeline連線 client將塊切分成packet（64kb），並使用chunk（512b）+chucksum（4b）

填充 client將packet放入傳送佇列dataqueue中，並向第乙個dn傳送

第乙個dn收到packet後本地儲存並傳送給第二個dn

第二個dn收到packet後本地儲存並傳送給第三個dn

這乙個過程中，上游節點同時傳送下乙個packet

生活中模擬工廠的流水線：結論：流式其實也是變種的平行計算

hdfs使用這種傳輸方式，副本數對於client是透明的

當block傳輸完成，dn們各自向nn匯報，同時client繼續傳輸下乙個block 所以，client的傳輸和block的匯報也是並行的

為了降低整體的頻寬消耗和讀取延時，hdfs會盡量讓讀取程式讀取離它最近的副本。

如果在讀取程式的同乙個機架上有乙個副本，那麼就讀取該副本。

如果乙個hdfs集群跨越多個資料中心，那麼客戶端也將首先讀本地資料中心的副本。

hdfs支援client給出檔案的offset自定義連線哪些block的dn，自定義獲取資料

這個是支援計算層的分治、平行計算的核心

hdfs可以暴露塊的位置資訊，偏移量，支援客戶端讀取檔案的任意位置。平行計算，不重複讀取資料

這也回答了，開頭的提問

大資料框架hadoop HDFS高可用

日誌型別資料爬蟲型別的資料關係型資料庫的資料統計分析畫像分析打標籤資料推薦 namenode管理者儲存在檔案系統上檔案的元資料，在做畫像分析的時候，由於頻繁訪問namnode讀寫資料，導致namenode掛掉了，怎麼辦？管理子節點子節點在啟動的時候，也去找standby的namenod...

大資料零基礎學習框架Hadoop HDFS

hadoop檔案系統使用分布式檔案系統設計開發。它是執行在普通硬體。不像其他的分布式系統，hdfs是高度容錯以及使用低成本的硬體設計。hdfs擁有超大型的資料量，並提供更輕鬆地訪問。為了儲存這些龐大的資料，這些檔案都儲存在多台機器。這些檔案都儲存以冗餘的方式來拯救系統免受可能的資料損失，在發生故障時...

大資料入門 2 Hadoop HDFS詳解1

以前64m，現在128m 容量規格也可dfs.blocksize 128m調整為256m，基於生產環境決定。hdfs 適應場景大檔案儲存，小檔案是致命的生產上 1.小檔案閾值，自己去看一下，取個中間值。2.如何合併小檔案資料未落地到hdfs之前合併，資料已經落到hdfs，spark serv...

大資料之hadoop hdfs知識通俗詳解

大資料框架hadoop HDFS高可用

大資料零基礎學習框架Hadoop HDFS

大資料入門 2 Hadoop HDFS詳解1

相關推薦