Hadoop系列006 HDFS概念及命令列操作

1.1 概念

hdfs，它是乙個檔案系統，用於儲存檔案，通過目錄樹來定位檔案；其次，它是分布式的，由很多伺服器聯合起來實現其功能，集群中的伺服器有各自的角色。

hdfs的設計適合一次寫入，多次讀出的場景，且不支援檔案的修改。適合用來做資料分析，並不適合用來做網盤應用。

1.2 組成

1）hdfs集群包括，namenode和datanode以及secondary namenode。

2）namenode負責管理整個檔案系統的元資料，以及每乙個路徑（檔案）所對應的資料塊資訊。

3）datanode 負責管理使用者的檔案資料塊，每乙個資料塊都可以在多個datanode上儲存多個副本。

4）secondary namenode用來監控hdfs狀態的輔助後台程式，每隔一段時間獲取hdfs元資料的快照。

1.3 hdfs 檔案塊大小

2.1 基本語法

bin/hadoop fs 具體命令

2.2 引數大全

bin/hadoop fs
[-cat [-ignorecrc] ...]
[-checksum ...]
[-chgrp [-r] group path...]
[-chmod [-r] path...]
[-chown [-r] [owner][:[group]] path...]
[-copyfromlocal [-f] [-p] ... ]
[-copytolocal [-p] [-ignorecrc] [-crc] ... ]
[-count [-q] ...]
[-cp [-f] [-p] ... ]
[-createsnapshot ]
[-deletesnapshot ]
[-df [-h] [...]]
[-du [-s] [-h] ...]
[-expunge]
[-get [-p] [-ignorecrc] [-crc] ... ]
[-getfacl [-r] ]
[-getmerge [-nl] ]
[-help [cmd ...]]
[-ls [-d] [-h] [-r] [...]]
[-mkdir [-p] ...]
[-movefromlocal ... ]
[-movetolocal ]
[-mv ... ]
[-put [-f] [-p] ... ]
[-renamesnapshot ]
[-rm [-f] [-r|-r] [-skiptrash] ...]
[-rmdir [--ignore-fail-on-non-empty] ...]
[-setfacl [-r] [  ]|[--set ]]
[-setrep [-r] [-w] ...]
[-stat [format] ...]
[-tail [-f] ]
[-test -[defsz] ]
[-text [-ignorecrc] ...]
[-touchz ...]
[-usage [cmd ...]]

3.3 常用命令實操

（1）-help：輸出這個命令引數

bin/hdfs dfs -help rm

（2）-ls: 顯示目錄資訊

hadoop fs -ls /

（3）-mkdir：在hdfs上建立目錄

hadoop fs  -mkdir  -p  /aaa/bbb/cc/dd

（4）-movefromlocal從本地剪下貼上到hdfs

hadoop  fs  - movefromlocal  /home/hadoop/a.txt  /aaa/bbb/cc/dd

（5）-movetolocal：從hdfs剪下貼上到本地

hadoop  fs  - movetolocal   /aaa/bbb/cc/dd  /home/hadoop/a.txt

（7）-cat ：顯示檔案內容

hadoop fs -cat /user/intflag/input/liugx.txt

（8）-tail：顯示乙個檔案的末尾

hadoop  fs  -tail  /weblog/access_log.1

（9）-text：以字元形式列印乙個檔案的內容

hadoop  fs  -text  /weblog/access_log.1

（10）-chgrp 、-chmod、-chown：linux檔案系統中的用法一樣，修改檔案所屬許可權

hadoop fs -chmod 666 /hello.txt hadoop fs -chown someuser:somegrp /hello.txt

（11）-copyfromlocal：從本地檔案系統中拷貝檔案到hdfs路徑去

hadoop  fs  -copyfromlocal  ./jdk.tar.gz  /aaa/

（12）-copytolocal：從hdfs拷貝到本地

hadoop fs -copytolocal /aaa/jdk.tar.gz

（13）-cp ：從hdfs的乙個路徑拷貝到hdfs的另乙個路徑

hadoop  fs  -cp  /aaa/jdk.tar.gz  /bbb/jdk.tar.gz.2

（14）-mv：在hdfs目錄中移動檔案

hadoop  fs  -mv  /aaa/jdk.tar.gz  /

hadoop fs -getmerge /aaa/log.* ./log.sum

（17）-put：等同於copyfromlocal

hadoop  fs  -put  /aaa/jdk.tar.gz  /bbb/jdk.tar.gz.2

（18）-rm：刪除檔案或資料夾

hadoop fs -rm -r /aaa/bbb/

（19）-rmdir：刪除空目錄

hadoop  fs  -rmdir   /aaa/bbb/ccc

（20）-df ：統計檔案系統的可用空間資訊

hadoop  fs  -df  -h  /

（21）-du統計資料夾的大小資訊

hadoop  fs  -du  -s  -h /aaa/*

（22）-count：統計乙個指定目錄下的檔案節點數量

hadoop fs -count /aaa/

（23）-setrep：設定hdfs中檔案的副本數量

注意：這裡設定的副本數只是記錄在namenode的元資料中，是否真的會有這麼多副本，還得看datanode的數量。因為目前只有3臺裝置，最多也就3個副本，只有節點數的增加到10台時，副本數才能達到10。

hadoop fs -setrep 3 /aaa/jdk.tar.gz

Hadoop系列一HDFS簡介

namenode nn namenode的metadata資訊在啟動後會載入到記憶體中，metadata資訊儲存在磁碟檔案fsimage，edits檔案記錄對metadata的操作日誌，block位置資訊只存在記憶體，不儲存到fsimage。secondarynamenode snn 不是nn的備份...

hadoop系列三 HDFS操作

0 檢視hdfs中的目錄資訊 hadoop fs ls hdfs路徑 1 上傳檔案到hdfs中 hadoop fs put 本地檔案 aaa hadoop fs copyfromlocal 本地檔案 hdfs路徑 copyfromlocal等價於 put hadoop fs movefromloca...

Hadoop系列之HDFS 資料塊 12

要把大檔案儲存在 hdfs上，hdfs 會把大檔案分割成小塊，即我們通常說的資料塊 block 它是 hadoop 分布式檔案系統最小的儲存單元，而且我們沒辦法決定指定塊的儲存節點位址，這些 namenode 會替我們決定。資料塊預設大小是 128mb，比作業系統裡面的塊概念要大很多作業系統塊大小...

Hadoop系列006 HDFS概念及命令列操作

Hadoop系列一HDFS簡介

hadoop系列三 HDFS操作

Hadoop系列之HDFS 資料塊 12

相關推薦