HDFS 分布式儲存基石

2021-09-11 11:59:16 字數 1551 閱讀 4990

hdfs是hadoop 分布式檔案系統。

namenode與datanode

集群結構

hdfs讀取寫入過程

通過網路拓撲圖判斷距離

namenode深入

作用

儲存結構

啟動過程

開啟安全模式:不能執行資料修改操作

載入fsimage

逐個執行所有edits檔案中的每一條操作將操作合併到fsimage,完成後生成乙個空的edits檔案

接受datanode傳送來的心跳訊息和塊資訊

根據以上資訊確定檔案系統狀態

退出安全模式

hdfs ha

hdfs檔案格式

hdfs支援任意檔案格式

hdfs檔案型別

列式與行式儲存

hdfs檔案型別

常用檔案型別

如何使用?

alter table table_name set fileformat parquet;

create table table_name (x int, y string) stored as parquet;

set hive.default.fileformat=orc

配置檔案路徑:$ hadoop_home $/etc/hadoop

主要配置檔案:

常見問題

namenode管理

大資料量下的namenode問題:

啟動時間邊長

效能開始下降

namenode jvm fgc風險較高

解決方案:

根據資料增長情況,預估namenode記憶體需求,提前做好預案

使用hdfs federation,擴充套件namenode分散單點負載

引入外部系統支援namenode記憶體資料

合併小檔案

調集成適的blocksize

分布式儲存 HDFS原理

短時間內快速產生的海量的多種多樣的有價值的資料。1 分布式儲存 2 分布式計算 1 分布式批處理 當資料積累一定的時間後 假設乙個月 進行統一的處理。2 分布式流處理分布式流處理是乙個實時的處理。即資料生成後立即處理。3 機器學習 凡是 類的都是機器學習。分布式儲存 系統學習分布式儲存 過程 hdf...

HDFS分布式儲存及特點

hdfs是hadoop應用程式使用的主要分布式儲存,主要被設計在商用硬體上執行,也就是說,他必須滿足低成本 高容錯 高吞吐的特性才能在眾多的分布式儲存系統中脫穎而出。hdfs具有主從架構,由檔案系統元資料管理namenode和實際資料儲存datanode組成。乙個hdfs集群只有乙個namenode...

談談 分布式理論基石

不難看出上邊說的這些事確確實實存在的問題。但是我們在開發中往往會有意無意的忽略它,希望大家在今後的工作中多多思考下 一致性 指客戶端每次操作,不管訪問那個節點,要麼讀到的都是同乙份最新資料,要麼失敗。一致性強調的是各個節點間的資料一致性,而不是強調的資料完整性 二階段提交協議,不僅僅是協議,也是一種...