hdfs集群分為兩大角色:namenode、datanodenamenode工作機制namenode負責管理整個檔案系統的元資料
datanode 負責管理使用者的檔案資料塊
d、checkpoint操作的觸發條件配置引數:
dfs.namenode.checkpoint.check.period=60 #檢查觸發條件是否滿足的頻率,60秒
dfs.namenode.checkpoint.dir=file://$/dfs/namesecondary
#以上兩個引數做checkpoint操作時,secondary namenode的本地工作目錄
dfs.namenode.checkpoint.edits.dir=$
dfs.namenode.checkpoint.max-retries=3 #最大重試次數
dfs.namenode.checkpoint.period=3600 #兩次checkpoint之間的時間間隔3600秒
dfs.namenode.checkpoint.txns=1000000 #兩次checkpoint之間最大的操作記錄
e、namenode和secondary namenode的工作目錄儲存結構完全相同,所以,當namenode故障退出需要重新恢復時,可以從secondary namenode的工作目錄中將fsimage拷貝到namenode的工作目錄,以恢復namenode的元資料datanode的工作機制f、可以通過hdfs的乙個工具來檢視edits中的資訊
bin/hdfs oev -i edits -o edits.xml
另外
fileutil.
copy
(new
file
("c:/test.tar.gz"),
filesystem.
get(uri.
create
("hdfs://hadoop-server01:9000"
), conf,
"hadoop"),
newpath
("/test.tar.gz"),
true
, conf)
;
fs.trash.checkpoint.interval=0 #**站過期機制檢查頻率(分鐘)
fs.trash.interval=0 #**站中檔案過期的時間限制(分鐘)
大資料 Hadoop分布式部署虛擬機器
分布式部署 複製hadoop senior2重新命名為hadoop senior3 image.png 在vmware workstation中開啟hadoop senior3 image.png 命令 在虛擬機器中自動生成mac位址 修改自動生成的eth1 刪除eth0 image.png 命令 ...
hadoop分布式安裝
工欲善其事,必先利其器。在資料橫行的時代,我們的大神hadoop 出來了,作為分布式處理資料 不但快,而且一般用配置不高的電腦業可以做集群。那麼,現在就開始安裝我們的hadoop 進入hadoop之旅 檔案,這裡就去 apache 的命令進行解壓 tar zxvf hadoop x.tar.gz 好...
hadoop分布式快取
概念 使用distributedcache方法 1.在main方法中載入共享檔案的hdfs路徑,路徑可以是目錄也可以是檔案。可以在路徑中末位追加 別名,在map階段可以使用該別名 string cache hdfs cache cache myfile myfile是別名job.addcachefi...