磁碟傳輸速率100m/s,定址時間10ms,讓定址時間是傳輸時間的1%,所以塊的大小為:
(100*0.01s)*100m/s=100m ——>128m
在 hdfs-default.xml 中搜尋dfs.blocksize,可以修改大小
檔案上傳
檢查檔案block的狀態
由上可見,狀態是健康的
啟動所有資料節點
$ hadoop-daemons.sh start datanode //在名稱節點伺服器上執行
啟動某乙個資料節點
$ hadoop-daemon.sh start datanode //在指定的datanode上執行
$ hadoop-daemon.sh stop datanode //關閉某個資料節點,關閉哪個就在哪個上面執行
啟動備用名稱節點
$ hadoop-daemon.sh start secondarynamenode //在任何節點上都可執行
檢視名稱節點的主機名稱
$ hdfs getconf -namenodes
檢視備用節點的主機名稱
$ hdfs getconf -secondarynamenodes
修改c:\windows\system32\drivers\etc\hosts,新增:
192.168.75.130 ubuntucp
192.168.75.131 ubuntu1
192.168.75.132 ubuntu2
192.168.75.133 ubuntu3
192.168.75.134 ubuntu4
1.namenoderpc:8020
webui:50070
2.datanode
rpc:8032
webui:50075
3.secondarynamenode
webui:50090
3.historyserver
webui:19888
4.resourcemanager
webui:8088
5.nodemanager
webui:8042
dfs.hosts :決定誰能夠連線namenode
dfs.hosts.exclude :決定誰不能連線namenode
1.建立 /soft/hadoop/etc/dfs-hosts-include.conf檔案
ubuntu1
ubuntu2
2.建立 /soft/hadoop/etc/dfs-hosts-exclude.conf檔案
ubuntu2
ubuntu3
3.編輯配置檔案 hdfs-site.xml
dfs.hosts
/soft/hadoop/etc/dfs-include.conf
dfs.hosts.exclude
/soft/hadoop/etc/dfs-exclude.conf
4.分發hdfs-site.xml檔案到所有節點
5.重新整理節點(避免關閉集群再開啟)
$ hdfs dfsadmin -refreshnodes
hadoop權威指南第11章p314
hadoop fs ==hdfs dfs
$ hadoop fs -ls
$ hadoop fs -cp
$ hadoop fs -cat
檢視目錄統計資訊(比如根目錄的統計資訊)
$ hadoop fs -count /
目錄個數 檔案個數 檔案大小
針對目錄,但目錄預設情況下不能建立快照
1.開啟快照功能
$ hdfs dfsadmin -allowsnapshot /test
2.建立快照(命名為 snap-1)
$ hadoop fs -creatsnapshot /test snap-1
3.刪除快照
$ hadoop fs -deletesnapshot
4.禁用快照(如果指定目錄已經存在快照,則不能禁用快照功能,必須先刪除快照)
$ hdfs dfsadmin -disallowsnapshot /test
程式刪除的檔案不會進入**站,除非呼叫 movetotrash( )函式
該資訊由 core-site.xml 檔案中的 fs.trash.interval 屬性設定,預設為0,表示**站無效。
刪除已在**站中超過最小時限的所有檔案
$ hadoop fs -expunge
$ hdfs dfsadmin -setquota n /dir //n > 0
則在 /test 目錄中只能存放乙個元素
$ hdfs dfsadmin -clrquota /dir
清除目錄配額
則 /test 目錄下只能存放 1m 的內容
$ hdfs dfsadmin -clrspacequota /test
清除空間配額
$ hdfs oiv -i fsimage_*** -o ***.xml -p xml
$ hdfs oev -i edits_*** -o ***.xml -p xml
Hadoop分布式檔案系統HDFS
2018年4月21號 主要概述 hdfs是以流式資料訪問模式來儲存超大檔案。執行於商用硬體集群上的 詳細解析 1 超大檔案 就是單個檔案達到幾百mb至幾百tb甚至pb的檔案。2 3 商用硬體集群上 商用硬體就是不貴也不是高可靠的硬體裝置。就是容錯性好,個別節點掛了,對整個系統不產生任何影響,主要是靠...
HDFS檔案系統
hdfs 是 hadoop distribute file system 的簡稱,意為 hadoop 分布式檔案系統。是hadoop 核心元件之一,作為最底層分布式儲存服務而存在。分布式檔案系統解決的問題就是大資料儲存。它們是橫跨在多台計算機上的儲存系統。分布式檔案系統在大資料時代有著廣泛的應用前景...
HDFS檔案系統的基本操作 Hadoop權威指南
1.1.1 基本操作幫助 hadoop fs help1.1.2 在hdfs上建立如下目錄 命令 hadoop fs mkdir p usr local hadoop input1 1.1.3 將檔案從xujing01複製到hdfs usr local hadoop input1 目錄 命令 had...