隨著資料量越來越大,在乙個作業系統上儲存不了所有的資料,那麼就分配到更多的作業系統管理的磁碟中,但是不方便管理和維護,迫切需要一種系統來管理多台機器上的檔案,這就是分布式檔案管理系統。hdfs只是分布式檔案管理系統的一種
hdfs(hadoop distributed file system),它是乙個檔案系統,用於儲存檔案,通過目錄樹來定位檔案;其次,它是分布式的,由很多伺服器聯合起來實現其功能,集群中的伺服器有各自的角色。
hdfs的使用場景:適合一次寫入,多次讀出的場景,且不支援檔案的修改。適合用來做資料分析,並不適合用來做網盤應用。
1、高容錯性
(1) 資料自動儲存多個副本。它通過增加副本的形式,提高容錯性。
(2) 某乙個副本丟失以後,它可以自動恢復。
2、適合處理大資料
(1) 資料規模:能夠處理資料規模達到gb、tb、甚至pb級別的資料
(2) 檔案規模:能夠處理百萬規模以上的檔案數量,數量相當之大。
3、可構建在廉價機器上,通過多副本機制,提高可靠性。
1、不適合低延時資料訪問,比如毫秒級的儲存資料,是做不到的。
2、無法高效的對大量小檔案進行儲存
(1) 儲存大量小檔案的話,它會占用namenode大量的記憶體來儲存檔案目錄和塊資訊。這樣是不可取的,因為namenode的記憶體總是有限制的。
(2) 小檔案儲存的定址時間會超過讀取時間,它違反了hdfs的設計目標。
3、不支援併發寫入、檔案隨機修改
HDFS的優缺點
hdfs的優點 1 資料冗餘 硬體容錯 檔案以block的方式,多副本儲存在集群的節點上,保證硬體的容錯,當某一機器損壞時,不至於資料丟失 2 處理流式的資料訪問 流式 一次寫入,多次讀取的操作 3 適合儲存大檔案 4 可構建在廉價的機器上 缺點 1 低延遲的資料訪問 資料大,想在秒級別做資料的檢索...
HDFS的優缺點
優點 1 適合儲存超大檔案 儲存級別基本都是gb甚至tb以上。2 伺服器廉價 3 流式資料訪問 一次寫入後,多次讀取,當資料作為分析物件後,以後的讀取時間比第一次讀取少很多時間。缺點 1 實時的資料訪問弱 由於儲存量大,所以讀取資料慢。2 大量小檔案 因為namenode把檔案系統的元資料放置在記憶...
HDFS的優缺點
hdfs的優點 1 海量資料儲存 hdfs可橫向擴充套件,其儲存的檔案可以支援pb級別或更高階別的資料儲存。2 高容錯性 資料儲存多個副本,副本丟失後自動恢復。可構建在廉價的機器上,實現線性擴充套件。當集群增加新節點之後,namenode也可以感知,進行負載均衡,將資料分發和備份資料均衡到新的節點上...