Hadoop 檔案系統（HDFS）

磁碟傳輸速率100m/s，定址時間10ms，讓定址時間是傳輸時間的1%，所以塊的大小為:

(100*0.01s)*100m/s=100m ——>128m

在 hdfs-default.xml 中搜尋dfs.blocksize，可以修改大小

檔案上傳

檢查檔案block的狀態

由上可見，狀態是健康的

啟動所有資料節點

$ hadoop-daemons.sh start datanode    //在名稱節點伺服器上執行

啟動某乙個資料節點

$ hadoop-daemon.sh start datanode //在指定的datanode上執行 $ hadoop-daemon.sh stop datanode //關閉某個資料節點，關閉哪個就在哪個上面執行

啟動備用名稱節點

$ hadoop-daemon.sh start secondarynamenode    //在任何節點上都可執行

檢視名稱節點的主機名稱

$ hdfs getconf -namenodes

檢視備用節點的主機名稱

$ hdfs getconf -secondarynamenodes

修改c:\windows\system32\drivers\etc\hosts，新增：

192.168.75.130 ubuntucp 192.168.75.131 ubuntu1 192.168.75.132 ubuntu2 192.168.75.133 ubuntu3 192.168.75.134 ubuntu4

1.namenoderpc:8020

webui:50070

2.datanode

rpc:8032

webui:50075

3.secondarynamenode

webui:50090

3.historyserver

webui:19888

4.resourcemanager

webui:8088

5.nodemanager

webui:8042

dfs.hosts :決定誰能夠連線namenode

dfs.hosts.exclude :決定誰不能連線namenode

1.建立 /soft/hadoop/etc/dfs-hosts-include.conf檔案

ubuntu1

ubuntu2

2.建立 /soft/hadoop/etc/dfs-hosts-exclude.conf檔案

ubuntu2

ubuntu3

3.編輯配置檔案 hdfs-site.xml

dfs.hosts /soft/hadoop/etc/dfs-include.conf

dfs.hosts.exclude /soft/hadoop/etc/dfs-exclude.conf

4.分發hdfs-site.xml檔案到所有節點

5.重新整理節點（避免關閉集群再開啟）

$ hdfs dfsadmin -refreshnodes

hadoop權威指南第11章p314

hadoop fs ==hdfs dfs

$ hadoop fs -ls $ hadoop fs -cp $ hadoop fs -cat

$ hadoop fs -count /

目錄個數檔案個數檔案大小

1.開啟快照功能

$ hdfs dfsadmin -allowsnapshot /test

2.建立快照（命名為 snap-1）

$ hadoop fs -creatsnapshot /test snap-1

3.刪除快照

$ hadoop fs -deletesnapshot

4.禁用快照（如果指定目錄已經存在快照，則不能禁用快照功能，必須先刪除快照）

$ hdfs dfsadmin -disallowsnapshot /test

程式刪除的檔案不會進入**站，除非呼叫 movetotrash( )函式

該資訊由 core-site.xml 檔案中的 fs.trash.interval 屬性設定，預設為0，表示**站無效。

刪除已在**站中超過最小時限的所有檔案

$ hadoop fs -expunge

$ hdfs dfsadmin -setquota n /dir          //n > 0

則在 /test 目錄中只能存放乙個元素

$ hdfs dfsadmin -clrquota /dir

清除目錄配額

則 /test 目錄下只能存放 1m 的內容

$ hdfs dfsadmin -clrspacequota /test

清除空間配額

$ hdfs oiv -i fsimage_*** -o ***.xml -p xml

$ hdfs oev -i edits_*** -o ***.xml -p xml

Hadoop分布式檔案系統HDFS

2018年4月21號主要概述 hdfs是以流式資料訪問模式來儲存超大檔案。執行於商用硬體集群上的詳細解析 1 超大檔案就是單個檔案達到幾百mb至幾百tb甚至pb的檔案。2 3 商用硬體集群上商用硬體就是不貴也不是高可靠的硬體裝置。就是容錯性好，個別節點掛了，對整個系統不產生任何影響，主要是靠...

HDFS檔案系統

hdfs 是 hadoop distribute file system 的簡稱，意為 hadoop 分布式檔案系統。是hadoop 核心元件之一，作為最底層分布式儲存服務而存在。分布式檔案系統解決的問題就是大資料儲存。它們是橫跨在多台計算機上的儲存系統。分布式檔案系統在大資料時代有著廣泛的應用前景...

HDFS檔案系統的基本操作 Hadoop權威指南

1.1.1 基本操作幫助 hadoop fs help1.1.2 在hdfs上建立如下目錄命令 hadoop fs mkdir p usr local hadoop input1 1.1.3 將檔案從xujing01複製到hdfs usr local hadoop input1 目錄命令 had...

Hadoop 檔案系統（HDFS）

Hadoop分布式檔案系統HDFS

HDFS檔案系統

HDFS檔案系統的基本操作 Hadoop權威指南

相關推薦