hdfs分布式檔案系統設計目標
1. 硬體錯誤:由於集群很多時候由數量眾多的廉價機組成,使得硬體錯誤成為常態
2. 資料流訪問:所有應用以流的方式訪問資料,設定之初便是為了用於批量的處理資料,而不是低延時的實時互動處理
3. 大資料集:典型的hdfs集群上面的乙個檔案是以g或者t數量級的,支援乙個集群當中的檔案數量達到千萬數量級
4. 簡單的相關模型:假定檔案是一次寫入,多次讀取的操作
5. 移動計算比移動資料便宜:乙個應用請求的計算,離它操作的資料越近,就越高效
6. 多種軟硬體的可移植性
分布式檔案系統 HDFS
hdfs源於google發表的乙份gfs hdfs是hadoop專案的核心子專案,是分布式計算中資料儲存管理的基礎,可以執行在廉價機器上,具有高容錯 高可靠性 高可擴充套件性 高獲得性 高吞吐率等特性,為超大資料集的應用處理帶來極大便利。1 hdfs的優點 1 高容錯性 資料自動儲存多個版本,通過增...
分布式檔案系統HDFS
以 bin dfs dfs 開頭的shell命令方式 1 在hdfs中為hadoop使用者建立乙個使用者目錄 hadoop使用者 2 在使用者目錄下建立乙個input目錄 3 在hdfs的根目錄下建立乙個名稱為input的目錄 4 刪除hdfs根目錄中的 input 目錄 在該檔案裡面可以隨意輸入一...
分布式檔案系統HDFS
以 bin dfs dfs 開頭的shell命令方式 1 在hdfs中為hadoop使用者建立乙個使用者目錄 hadoop使用者 2 在使用者目錄下建立乙個input目錄 3 在hdfs的根目錄下建立乙個名稱為input的目錄 4 刪除hdfs根目錄中的 input 目錄 在該檔案裡面可以隨意輸入一...