為什麼要給小檔案archive
未完成。。。。
commond:
hadoop archive -123.har name -p [-r ] *
將乙個目錄作為整個進行archive
hadoop archive -archivename 123.har -p /test/archive -r 3 /test/
unarchive
按順序unarchive
hdfs dfs -cp har:///user/zoo/foo.har/dir1 hdfs:/user/zoo/newdir
並行unarchive
hadoop distcp har:///user/zoo/foo.har/dir1 hdfs:/user/zoo/newdir
檢視歸檔檔案:
hdfs dfs -ls -r har:///user/zoo/foo.har/
hdfs dfs -ls har:///user/zoo/foo.har
刪除:hadoop fs -rmr user/zoo/foo.har
例項:archive:hadoop archive -archivename 123.har -p /test/archive -r 3 1.txt 2.txt 3.txt /test
檢視:hdfs dfs -ls -r har:///test/123.har
hdfs dfs -ls har:///test/123.har
刪除後再次archive:
hadoop archive -archivename foo.har -p /user/hadoop 1.txt 2.txt /user/zoo
hadoop archive -archivename 123.har -p /test/ 1.txt 2.txt /test/
-rw-r--r-- 3 root supergroup 4 2019-05-13 01:29 har:///test/123.har/1.txt
-rw-r--r-- 3 root supergroup 4 2019-05-13 01:29 har:///test/123.har/2.txt
刪除後再次archive:
hadoop archive -archivename 123.har -p /test/ archive/1.txt archive/2.txt /test
再次檢視:hdfs dfs -ls har:///test/123.har
-rw-r--r-- 3 root supergroup 4 2019-05-13 01:29 har:///test/123.har/archive/1.txt
-rw-r--r-- 3 root supergroup 4 2019-05-13 01:29 har:///test/123.har/archive/2.txt
查閱官網: HDFS合併小檔案
眾所周知,hdfs中過多的小檔案,會給namenode造成很大的壓力,所謂的小檔案,是指遠遠小於檔案塊大小的檔案。在使用hdfs的過程中,應盡量避免生成過多的小檔案。假設存放在本地的資料由很多個小檔案組成,需要上傳到hdfs。一般的做法是在本地使用指令碼 程式先把小檔案合併後再上傳。假設本地有兩個小...
小檔案處理 HDFS
1.儲存 hdfs可以儲存小檔案,但是這個過程中,每乙個小檔案在儲存的時候都會產生一條元資料,這也就意味著如果儲存大量的小檔案,就會產生大量的元資料,則意味著記憶體會被大量占用,此時就會導致hdfs的讀寫效率整體降低 2.計算 每乙個小檔案都會看做乙個切片來進行處理,每乙個切片都會對應乙個mapta...
HDFS小檔案問題
1 概述 小檔案是指檔案size小於hdfs上block大小的檔案。這樣的檔案會給hadoop的擴充套件性和效能帶來嚴重問題。首先,在hdfs中,任何block,檔案或者目錄在記憶體中均以物件的形式儲存,每個物件約佔150byte,如果有1000 0000個小檔案,每個檔案占用乙個block,則na...