Hadoop小檔案歸檔

hdfs檔案的元資料存放在namenode，大量的小檔案會導致namennode記憶體耗盡。

hdfs提供了一種針對小檔案的歸檔方案，namenode將多個小檔案歸檔後的檔案視為乙個整體，所以可以大大降低元資料的開銷。但是對於使用者訪問來說卻是透明的，仍然可以可以對每個檔案單獨訪問。

檔案歸檔需要執行mapreduce任務，所以要確保yarn服務正常啟動。

./bin/star-yarn.sh

檔案歸檔

原始目錄/input有3個小檔案，分別為a.txt, b.txt, c.txt

[root@master hadoop-2.6.5]# ./bin/hdfs dfs -ls /input found 3 items -rw-r--r-- 2 root supergroup 12 2019-12-05 20:32 /input/a.txt -rw-r--r-- 2 root supergroup 12 2019-12-05 20:32 /input/b.txt -rw-r--r-- 2 root supergroup 12 2019-12-05 20:32 /input/c.txt

將input目錄歸檔成input.har

[root@master hadoop-2.6.5]# ./bin/hadoop archive -archivename input.har  -p  /input   /output

檢視歸檔檔案

[root@master hadoop-2.6.5]# ./bin/hdfs dfs -ls /output found 1 items drwxr-xr-x - root supergroup 0 2019-12-05 21:24 /output/input.har

訪問歸檔檔案

[root@master hadoop-2.6.5]# ./bin/hdfs dfs -ls har:///output/input.har found 3 items -rw-r--r-- 2 root supergroup 12 2019-12-05 20:32 har:///output/input.har/a.txt -rw-r--r-- 2 root supergroup 12 2019-12-05 20:32 har:///output/input.har/b.txt -rw-r--r-- 2 root supergroup 12 2019-12-05 20:32 har:///output/input.har/c.txt [root@master hadoop-2.6.5]# ./bin/hdfs dfs -cat har:///output/input.har/a.txt hello a.txt

解歸檔檔案

[root@master hadoop-2.6.5]# ./bin/hdfs dfs -cp har:///output/input.har/* /test [root@master hadoop-2.6.5]# ./bin/hdfs dfs -ls /test found 3 items -rw-r--r-- 2 root supergroup 12 2019-12-05 21:30 /test/a.txt -rw-r--r-- 2 root supergroup 12 2019-12-05 21:30 /test/b.txt -rw-r--r-- 2 root supergroup 12 2019-12-05 21:30 /test/c.txt

Hadoop小檔案歸檔

Hadoop小檔案優化

建立hadoop 歸檔檔案

hadoop 小檔案解決方案

Hadoop小檔案歸檔

Hadoop小檔案優化

建立hadoop 歸檔檔案

hadoop 小檔案解決方案

相關推薦