hdfs是hadoop 分布式檔案系統。
namenode與datanode
集群結構
hdfs讀取寫入過程
通過網路拓撲圖判斷距離
namenode深入
作用:
儲存結構:
啟動過程:
開啟安全模式:不能執行資料修改操作
載入fsimage
逐個執行所有edits檔案中的每一條操作將操作合併到fsimage,完成後生成乙個空的edits檔案
接受datanode傳送來的心跳訊息和塊資訊
根據以上資訊確定檔案系統狀態
退出安全模式
hdfs ha
hdfs檔案格式
hdfs支援任意檔案格式
hdfs檔案型別
列式與行式儲存
hdfs檔案型別
常用檔案型別
如何使用?
alter table table_name set fileformat parquet;
create table table_name (x int, y string) stored as parquet;
set hive.default.fileformat=orc
配置檔案路徑:$ hadoop_home $/etc/hadoop
主要配置檔案:
常見問題
namenode管理
大資料量下的namenode問題:
啟動時間邊長
效能開始下降
namenode jvm fgc風險較高
解決方案:
根據資料增長情況,預估namenode記憶體需求,提前做好預案
使用hdfs federation,擴充套件namenode分散單點負載
引入外部系統支援namenode記憶體資料
合併小檔案
調集成適的blocksize
分布式儲存 HDFS原理
短時間內快速產生的海量的多種多樣的有價值的資料。1 分布式儲存 2 分布式計算 1 分布式批處理 當資料積累一定的時間後 假設乙個月 進行統一的處理。2 分布式流處理分布式流處理是乙個實時的處理。即資料生成後立即處理。3 機器學習 凡是 類的都是機器學習。分布式儲存 系統學習分布式儲存 過程 hdf...
HDFS分布式儲存及特點
hdfs是hadoop應用程式使用的主要分布式儲存,主要被設計在商用硬體上執行,也就是說,他必須滿足低成本 高容錯 高吞吐的特性才能在眾多的分布式儲存系統中脫穎而出。hdfs具有主從架構,由檔案系統元資料管理namenode和實際資料儲存datanode組成。乙個hdfs集群只有乙個namenode...
談談 分布式理論基石
不難看出上邊說的這些事確確實實存在的問題。但是我們在開發中往往會有意無意的忽略它,希望大家在今後的工作中多多思考下 一致性 指客戶端每次操作,不管訪問那個節點,要麼讀到的都是同乙份最新資料,要麼失敗。一致性強調的是各個節點間的資料一致性,而不是強調的資料完整性 二階段提交協議,不僅僅是協議,也是一種...