Hadoop大資料分布式檔案系統hdfs的工作機制

hdfs集群分為兩大角色：namenode、datanode

namenode負責管理整個檔案系統的元資料

datanode 負責管理使用者的檔案資料塊

namenode工作機制

d、checkpoint操作的觸發條件配置引數：

dfs.namenode.checkpoint.check.period=60 #檢查觸發條件是否滿足的頻率，60秒 dfs.namenode.checkpoint.dir=file://$/dfs/namesecondary #以上兩個引數做checkpoint操作時，secondary namenode的本地工作目錄 dfs.namenode.checkpoint.edits.dir=$ dfs.namenode.checkpoint.max-retries=3 #最大重試次數 dfs.namenode.checkpoint.period=3600 #兩次checkpoint之間的時間間隔3600秒

dfs.namenode.checkpoint.txns=1000000 #兩次checkpoint之間最大的操作記錄

e、namenode和secondary namenode的工作目錄儲存結構完全相同，所以，當namenode故障退出需要重新恢復時，可以從secondary namenode的工作目錄中將fsimage拷貝到namenode的工作目錄，以恢復namenode的元資料

f、可以通過hdfs的乙個工具來檢視edits中的資訊

bin/hdfs oev -i edits -o edits.xml

datanode的工作機制

另外

fileutil.
copy
(new
file
("c:/test.tar.gz"),
filesystem.
get(uri.
create
("hdfs://hadoop-server01:9000"
), conf,
"hadoop"),
newpath
("/test.tar.gz"),
true
, conf)
;

fs.trash.checkpoint.interval=0 #**站過期機制檢查頻率（分鐘）

fs.trash.interval=0 #**站中檔案過期的時間限制（分鐘）

大資料 Hadoop分布式部署虛擬機器

分布式部署複製hadoop senior2重新命名為hadoop senior3 image.png 在vmware workstation中開啟hadoop senior3 image.png 命令在虛擬機器中自動生成mac位址修改自動生成的eth1 刪除eth0 image.png 命令 ...

hadoop分布式安裝

工欲善其事，必先利其器。在資料橫行的時代，我們的大神hadoop 出來了，作為分布式處理資料不但快，而且一般用配置不高的電腦業可以做集群。那麼，現在就開始安裝我們的hadoop 進入hadoop之旅檔案，這裡就去 apache 的命令進行解壓 tar zxvf hadoop x.tar.gz 好...

hadoop分布式快取

概念使用distributedcache方法 1.在main方法中載入共享檔案的hdfs路徑，路徑可以是目錄也可以是檔案。可以在路徑中末位追加別名，在map階段可以使用該別名 string cache hdfs cache cache myfile myfile是別名job.addcachefi...

Hadoop大資料分布式檔案系統hdfs的工作機制

大資料 Hadoop分布式部署虛擬機器

hadoop分布式安裝

hadoop分布式快取

相關推薦