目錄疑問
儲存模型(重要)
架構設計
角色功能
namenode
datanode
元資料持久化
安全模式
hdfs中的snn
secondarynamenode(snn)
block的副本放置策略
hdfs寫流程
hdfs讀流程 總結
分布式檔案系統那麼多,為什麼hadoop專案中還要開發乙個hdfs檔案系統?
namenode啟動過程
client和nn連線建立檔案元資料
nn判定元資料是否有效
nn處發副本放置策略,返回乙個有序的dn列表
client和dn建立pipeline連線 client將塊切分成packet(64kb),並使用chunk(512b)+chucksum(4b)
填充 client將packet放入傳送佇列dataqueue中,並向第乙個dn傳送
第乙個dn收到packet後本地儲存並傳送給第二個dn
第二個dn收到packet後本地儲存並傳送給第三個dn
這乙個過程中,上游節點同時傳送下乙個packet
生活中模擬工廠的流水線:結論:流式其實也是變種的平行計算
hdfs使用這種傳輸方式,副本數對於client是透明的
當block傳輸完成,dn們各自向nn匯報,同時client繼續傳輸下乙個block 所以,client的傳輸和block的匯報也是並行的
為了降低整體的頻寬消耗和讀取延時,hdfs會盡量讓讀取程式讀取離它最近的副本。
如果在讀取程式的同乙個機架上有乙個副本,那麼就讀取該副本。
如果乙個hdfs集群跨越多個資料中心,那麼客戶端也將首先讀本地資料中心的副本。
hdfs支援client給出檔案的offset自定義連線哪些block的dn,自定義獲取資料
這個是支援計算層的分治、平行計算的核心
hdfs可以暴露塊的位置資訊,偏移量,支援客戶端讀取檔案的任意位置。平行計算,不重複讀取資料
這也回答了,開頭的提問
大資料框架hadoop HDFS高可用
日誌型別資料 爬蟲型別的資料 關係型資料庫的資料 統計分析 畫像分析 打標籤 資料推薦 namenode管理者儲存在檔案系統上檔案的元資料,在做畫像分析的時候,由於頻繁訪問namnode讀寫資料,導致namenode掛掉了,怎麼辦?管理子節點 子節點在啟動的時候,也去找standby的namenod...
大資料零基礎學習框架Hadoop HDFS
hadoop檔案系統使用分布式檔案系統設計開發。它是執行在普通硬體。不像其他的分布式系統,hdfs是高度容錯以及使用低成本的硬體設計。hdfs擁有超大型的資料量,並提供更輕鬆地訪問。為了儲存這些龐大的資料,這些檔案都儲存在多台機器。這些檔案都儲存以冗餘的方式來拯救系統免受可能的資料損失,在發生故障時...
大資料入門 2 Hadoop HDFS詳解1
以前64m,現在128m 容量規格 也可dfs.blocksize 128m調整為256m,基於生產環境決定。hdfs 適應場景 大檔案儲存,小檔案是致命的 生產上 1.小檔案閾值,自己去看一下,取個中間值。2.如何合併小檔案 資料未落地到hdfs之前合併,資料已經落到hdfs,spark serv...