由於 hadoop 擅長儲存大檔案,因為大檔案的元資料資訊比較少,如果 hadoop 集群當中有大量的小檔案,那麼每個小檔案都需要維護乙份元資料資訊,會大大的增加集群管理元資料的記憶體壓力,所以在實際工作當中,如果有必要一定要將小檔案合併成大檔案進行一起處理
cd /export/servers
hdfs dfs -getmerge /config/*.xml ./hello.xml
@test
public void mergefile() throws exception
ioutils.closequietly(outputstream);
local.close();
filesystem.close();
}
HDFS小檔案的危害
一 black塊 舉例 black塊官方設定的是64m,現在多數用的是128m 舉例 乙個檔案130m 128m 1 2m 結果是1個塊128m,1個塊2m 一碗水130ml 乙個瓶子規格容量128ml 只能2個瓶子 第1個裝滿128ml 第二個裝不滿,實為2ml 二 小檔案的危害 hdfs 適應場...
HDFS小檔案的優化
hdfs上每個檔案都要在namenode 上建立乙個索引,這個索引的大小約為150byte,這樣當小檔案比較多的時候,就 會產生很多的索引檔案,一方面會大量的占用namenode 的空間,另一方面就是索引檔案過大時得索引速度變慢。hdfs小檔案解決方案 小檔案的優化無非以下幾種方式 1 在資料採集的...
hdfs儲存小檔案archive操作及好處和原因
為什麼要給小檔案archive 未完成。commond hadoop archive 123.har name p r 將乙個目錄作為整個進行archive hadoop archive archivename 123.har p test archive r 3 test unarchive 按順...