1、支援超大檔案,一般來說,hdfs 儲存的檔案可以支援 tb 和 pb 級別的資料。
2、檢測和快速應對硬體故障:
在集群環境中,硬體故障是常見性問題。因為有上千臺伺服器連在一起,故障率高,因此故障檢測和自動恢復 hdfs 檔案系統的乙個設計目標。假設某乙個 datanode 節點掛掉之後,因為資料備份,還可以從其他節點裡找到。namenode 通過心跳機制來檢測 datanode 是否還存在
3、流式資料訪問:
hdfs 的資料處理規模比較大,應用一次需要大量的資料,同時這些應用一般都是批量處理,而不是使用者互動式處理,應用程式能以流的形式訪問資料庫。主要的是資料的吞吐量,而不是訪問速度。訪問速度最終是要受制於網路和磁碟的速度,機器節點再多,也不能突破物理的侷限,hdfs 不適合於低延遲的資料訪問,hdfs 的是高吞吐量。
4、簡化的一致性模型:
對於外部使用使用者,不需要了解 hadoop 底層細節,比如檔案的切塊,檔案的儲存,節點的管理。
乙個檔案儲存在 hdfs 上後,適合一次寫入,多次寫出的場景 once-write-read-many。因為儲存在 hdfs 上的檔案都是超大檔案,當上傳完這個檔案到 hadoop 集群後,會進行檔案切塊,分發,複製等操作。如果檔案被修改,會導致重新出發這個過程,而這個過程耗時是最長的。所以在 hadoop 裡,不允許對上傳到 hdfs 上檔案做修改 (隨機寫),在 2.0 版本時可以在後面追加資料。但不建議。
5、高容錯性:
資料自動儲存多個副本,副本丟失後自動恢復。可構建在廉價機上,實現線性 (橫向) 擴充套件,當集群增加新節點之後,namenode 也可以感知,將資料分發和備份到相應的節點上。
6、商用硬體
hadoop 並不需要執行在昂貴且高可靠的硬體上,它是設計執行在商用硬體的集群上的,因此至少對於龐大的集群來說,節點故障的機率還是非常高的。hdfs 遇到上述故障時,被設計成能夠繼續執行且不讓使用者察覺到明顯的中斷。
hdfs 缺點:
1、不能做到低延遲
由於 hadoop 針對高資料吞吐量做了優化,犧牲了獲取資料的延遲,所以對於低延遲資料訪問,不適合 hadoop,對於低延遲的訪問需求,hbase 是更好的選擇,
2、不適合大量的小檔案儲存
由於 namenode 將檔案系統的元資料儲存在記憶體中,因此該檔案系統所能儲存的檔案總數受限於 namenode 的記憶體容量,根據經驗,每個檔案、目錄和資料塊的儲存資訊大約佔 150 位元組。因此,如果大量的小檔案儲存,每個小檔案會佔乙個資料塊,會使用大量的記憶體,有可能超過當前硬體的能力。
3、不適合多使用者寫入檔案,修改檔案
hadoop2.0 雖然支援檔案的追加功能,但是還是不建議對 hdfs 上的 檔案進行修改,因為效率低。
對於上傳到 hdfs 上的檔案,不支援修改檔案,hdfs 適合一次寫入,多次讀取的場景。
hdfs 不支援多使用者同時執行寫操作,即同一時間,只能有乙個使用者執行寫操作。
Hadoop特點和缺點
hadoop特點和缺點 1 支援超大檔案,一般來說,hdfs儲存的檔案可以支援tb和pb級別的資料。2 檢測和快速應對硬體故障 在集群環境中,硬體故障是常見性問題。因為有上千臺伺服器連在一起,故障率高,因此故障檢測和自動恢復hdfs檔案系統的乙個設計目標。假設某乙個datanode節點掛掉之後,因為...
Hadoop的概述和特點
hadoop官網 一 hadoop概述 1 伺服器 節點 可以理解為我們的一台筆記本 台式電腦,在這裡可以認為是我們的一台虛擬機器 後面學習中,我們會把一台伺服器稱為乙個節點 乙個公司裡,會有很多伺服器。尤其是hadoop集群大到上千臺伺服器搭建成集群 2 機架負責存放伺服器的架子3 什麼是hado...
Rman工具的特點 優缺點
rman recovery manager 是一種用於備份 backup 還原 restore 和恢復 recover 資料庫的 oracle 工具。可以用來備份和還原資料庫檔案 歸檔日誌和控制檔案。它也可以用來執行完全或不完全的資料庫恢復。rman不能用於備份初始化引數檔案 備份控制檔案時一齊備份...