Hadoop 檔案系統(HDFS)

2021-08-19 22:49:40 字數 3760 閱讀 4555

磁碟傳輸速率100m/s,定址時間10ms,讓定址時間是傳輸時間的1%,所以塊的大小為:

(100*0.01s)*100m/s=100m ——>128m

在 hdfs-default.xml 中搜尋dfs.blocksize,可以修改大小

檔案上傳

檢查檔案block的狀態

由上可見,狀態是健康的

啟動所有資料節點

$ hadoop-daemons.sh start datanode    //在名稱節點伺服器上執行
啟動某乙個資料節點

$ hadoop-daemon.sh start datanode    //在指定的datanode上執行

$ hadoop-daemon.sh stop datanode //關閉某個資料節點,關閉哪個就在哪個上面執行

啟動備用名稱節點

$ hadoop-daemon.sh start secondarynamenode    //在任何節點上都可執行
檢視名稱節點的主機名稱

$ hdfs getconf -namenodes
檢視備用節點的主機名稱

$ hdfs getconf -secondarynamenodes
修改c:\windows\system32\drivers\etc\hosts,新增:

192.168.75.130      ubuntucp

192.168.75.131 ubuntu1

192.168.75.132 ubuntu2

192.168.75.133 ubuntu3

192.168.75.134 ubuntu4

1.namenoderpc:8020

webui:50070

2.datanode

rpc:8032

webui:50075

3.secondarynamenode

webui:50090

3.historyserver

webui:19888

4.resourcemanager

webui:8088

5.nodemanager

webui:8042

dfs.hosts :決定誰能夠連線namenode

dfs.hosts.exclude :決定誰不能連線namenode

1.建立 /soft/hadoop/etc/dfs-hosts-include.conf檔案

ubuntu1

ubuntu2

2.建立 /soft/hadoop/etc/dfs-hosts-exclude.conf檔案

ubuntu2

ubuntu3

3.編輯配置檔案 hdfs-site.xml

dfs.hosts

/soft/hadoop/etc/dfs-include.conf

dfs.hosts.exclude

/soft/hadoop/etc/dfs-exclude.conf

4.分發hdfs-site.xml檔案到所有節點

5.重新整理節點(避免關閉集群再開啟)

$ hdfs dfsadmin -refreshnodes
hadoop權威指南第11章p314

hadoop fs ==hdfs dfs

$ hadoop fs -ls 

$ hadoop fs -cp

$ hadoop fs -cat

檢視目錄統計資訊(比如根目錄的統計資訊)

$ hadoop fs -count /
目錄個數        檔案個數        檔案大小

針對目錄,但目錄預設情況下不能建立快照

1.開啟快照功能

$ hdfs dfsadmin -allowsnapshot /test
2.建立快照(命名為 snap-1)

$ hadoop fs -creatsnapshot /test snap-1
3.刪除快照

$ hadoop fs -deletesnapshot
4.禁用快照(如果指定目錄已經存在快照,則不能禁用快照功能,必須先刪除快照)

$ hdfs dfsadmin -disallowsnapshot /test
程式刪除的檔案不會進入**站,除非呼叫 movetotrash( )函式

該資訊由 core-site.xml 檔案中的 fs.trash.interval 屬性設定,預設為0,表示**站無效。

刪除已在**站中超過最小時限的所有檔案

$ hadoop fs -expunge
$ hdfs dfsadmin -setquota n /dir          //n > 0
則在 /test 目錄中只能存放乙個元素

$ hdfs dfsadmin -clrquota /dir
清除目錄配額

則 /test 目錄下只能存放 1m 的內容

$ hdfs dfsadmin -clrspacequota /test
清除空間配額

$ hdfs oiv -i fsimage_*** -o ***.xml -p xml
$ hdfs oev -i edits_*** -o ***.xml -p xml

Hadoop分布式檔案系統HDFS

2018年4月21號 主要概述 hdfs是以流式資料訪問模式來儲存超大檔案。執行於商用硬體集群上的 詳細解析 1 超大檔案 就是單個檔案達到幾百mb至幾百tb甚至pb的檔案。2 3 商用硬體集群上 商用硬體就是不貴也不是高可靠的硬體裝置。就是容錯性好,個別節點掛了,對整個系統不產生任何影響,主要是靠...

HDFS檔案系統

hdfs 是 hadoop distribute file system 的簡稱,意為 hadoop 分布式檔案系統。是hadoop 核心元件之一,作為最底層分布式儲存服務而存在。分布式檔案系統解決的問題就是大資料儲存。它們是橫跨在多台計算機上的儲存系統。分布式檔案系統在大資料時代有著廣泛的應用前景...

HDFS檔案系統的基本操作 Hadoop權威指南

1.1.1 基本操作幫助 hadoop fs help1.1.2 在hdfs上建立如下目錄 命令 hadoop fs mkdir p usr local hadoop input1 1.1.3 將檔案從xujing01複製到hdfs usr local hadoop input1 目錄 命令 had...