(1)hdfs不適合大量小檔案的儲存,因namenode將檔案系統的元資料存放在記憶體中,因此儲存的檔案數目受限於 namenode的記憶體大小。hdfs中每個檔案、目錄、資料塊占用150bytes。如果存放的檔案數目過多的話會占用很大的記憶體甚至撐爆記憶體
(2)hdfs適用於高吞吐量,而不適合低時間延遲的訪問。如果同時存入大量的小檔案會花費很長的時間
(3) 流式讀取的方式,不適合多使用者寫入,以及任意位置寫入。如果訪問小檔案,則必須從乙個datanode跳轉到另外乙個datanode,這樣大大降低了讀取效能。
HDFS小檔案問題及解決方案
1 概述 小檔案是指檔案size小於hdfs上block大小的檔案。這樣的檔案會給hadoop的擴充套件性和效能帶來嚴重問題。首先,在hdfs中,任何block,檔案或者目錄在記憶體中均以物件的形式儲存,每個物件約佔150byte,如果有1000 0000個小檔案,每個檔案占用乙個block,則na...
HDFS小檔案問題及解決方案
1 概述 小檔案是指檔案size小於hdfs上block大小的檔案。這樣的檔案會給hadoop的擴充套件性和效能帶來嚴重問題。首先,在hdfs中,任何block,檔案或者目錄在記憶體中均以物件的形式儲存,每個物件約佔150byte,如果有1000 0000個小檔案,每個檔案占用乙個block,則na...
HDFS小檔案問題及解決方案
1 概述 小檔案是指檔案size小於hdfs上block大小的檔案。這樣的檔案會給hadoop的擴充套件性和效能帶來嚴重問題。首先,在hdfs中,任何block,檔案或者目錄在記憶體中均以物件的形式儲存,每個物件約佔150byte,如果有1000 0000個小檔案,每個檔案占用乙個block,則na...