hdfs儲存小檔案archive操作及好處和原因

為什麼要給小檔案archive

未完成。。。。

commond：

hadoop archive -123.har name -p [-r ] *

將乙個目錄作為整個進行archive

hadoop archive -archivename 123.har -p /test/archive -r 3 /test/

unarchive

按順序unarchive

hdfs dfs -cp har:///user/zoo/foo.har/dir1 hdfs:/user/zoo/newdir

並行unarchive

hadoop distcp har:///user/zoo/foo.har/dir1 hdfs:/user/zoo/newdir

檢視歸檔檔案：

hdfs dfs -ls -r har:///user/zoo/foo.har/

hdfs dfs -ls har:///user/zoo/foo.har

刪除：hadoop fs -rmr user/zoo/foo.har

例項：archive：hadoop archive -archivename 123.har -p /test/archive -r 3 1.txt 2.txt 3.txt /test

檢視：hdfs dfs -ls -r har:///test/123.har

hdfs dfs -ls har:///test/123.har

刪除後再次archive：

hadoop archive -archivename foo.har -p /user/hadoop 1.txt 2.txt /user/zoo

hadoop archive -archivename 123.har -p /test/ 1.txt 2.txt /test/

-rw-r--r-- 3 root supergroup 4 2019-05-13 01:29 har:///test/123.har/1.txt

-rw-r--r-- 3 root supergroup 4 2019-05-13 01:29 har:///test/123.har/2.txt

刪除後再次archive：

hadoop archive -archivename 123.har -p /test/ archive/1.txt archive/2.txt /test

再次檢視：hdfs dfs -ls har:///test/123.har

-rw-r--r-- 3 root supergroup 4 2019-05-13 01:29 har:///test/123.har/archive/1.txt

-rw-r--r-- 3 root supergroup 4 2019-05-13 01:29 har:///test/123.har/archive/2.txt

查閱官網：

HDFS合併小檔案

眾所周知，hdfs中過多的小檔案，會給namenode造成很大的壓力，所謂的小檔案，是指遠遠小於檔案塊大小的檔案。在使用hdfs的過程中，應盡量避免生成過多的小檔案。假設存放在本地的資料由很多個小檔案組成，需要上傳到hdfs。一般的做法是在本地使用指令碼程式先把小檔案合併後再上傳。假設本地有兩個小...

小檔案處理 HDFS

1.儲存 hdfs可以儲存小檔案，但是這個過程中，每乙個小檔案在儲存的時候都會產生一條元資料，這也就意味著如果儲存大量的小檔案，就會產生大量的元資料，則意味著記憶體會被大量占用，此時就會導致hdfs的讀寫效率整體降低 2.計算每乙個小檔案都會看做乙個切片來進行處理，每乙個切片都會對應乙個mapta...

HDFS小檔案問題

1 概述小檔案是指檔案size小於hdfs上block大小的檔案。這樣的檔案會給hadoop的擴充套件性和效能帶來嚴重問題。首先，在hdfs中，任何block，檔案或者目錄在記憶體中均以物件的形式儲存，每個物件約佔150byte，如果有1000 0000個小檔案，每個檔案占用乙個block，則na...

hdfs儲存小檔案archive操作及好處和原因

HDFS合併小檔案

小檔案處理 HDFS

HDFS小檔案問題

相關推薦