1,概述
分布式檔案系統是通過網路實現檔案在多台主機上進行分布式儲存的檔案系統。採用client/server模式,客戶端通過特定的通訊協議通過網路與伺服器建立連線,提出訪問請求,客戶端和伺服器可以通過設定訪問許可權來限制請求方對底層資料儲存塊的訪問。
2,塊
hdfs以塊為儲存單位,預設乙個塊的大小為64mb。設計比較大的塊可以降低單位資料的定址開銷,因此hdfs在檔案塊大小方面遠遠大於普通檔案系統,以期在處理大規模檔案時能夠獲得更好的效能。但過大會降低作業並行處理速度,因為mapreduce的map任務一次只處理乙個塊的資料,如果任務啟動太少,會降低處理速度。
3,名稱節點和資料節點
在hdfs中,名稱節點負責分布式檔案系統的命名空間,儲存了兩個核心的資料結構:fsimage和editlog。
fsimage:維護系統樹和檔案樹所有的檔案和資料夾的元資料。editlog:記錄了所有針對檔案的建立,刪除,重新命名等操作。
資料節點是hdfs的工作節點,負責資料的儲存和讀取,會根據客戶端或者名稱節點的排程來進行資料的儲存和檢索,並向名稱節點定傳送自己所儲存的列表。每個資料節點上的資料會儲存在各自節點的本地linux檔案系統中。
4,第二名稱節點
第二名稱節點可以有效解決editlog逐漸變大帶來的問題。它具體有兩個方面的功能:首先,可以完成fsimage和editlog的合併操作,減小editlog檔案大小,縮短名稱節點重啟時間;其次,可以作為名稱節點的「檢查點」,儲存名稱節點中的元資料資訊。
分布式檔案系統 HDFS
hdfs源於google發表的乙份gfs hdfs是hadoop專案的核心子專案,是分布式計算中資料儲存管理的基礎,可以執行在廉價機器上,具有高容錯 高可靠性 高可擴充套件性 高獲得性 高吞吐率等特性,為超大資料集的應用處理帶來極大便利。1 hdfs的優點 1 高容錯性 資料自動儲存多個版本,通過增...
分布式檔案系統HDFS
以 bin dfs dfs 開頭的shell命令方式 1 在hdfs中為hadoop使用者建立乙個使用者目錄 hadoop使用者 2 在使用者目錄下建立乙個input目錄 3 在hdfs的根目錄下建立乙個名稱為input的目錄 4 刪除hdfs根目錄中的 input 目錄 在該檔案裡面可以隨意輸入一...
分布式檔案系統HDFS
以 bin dfs dfs 開頭的shell命令方式 1 在hdfs中為hadoop使用者建立乙個使用者目錄 hadoop使用者 2 在使用者目錄下建立乙個input目錄 3 在hdfs的根目錄下建立乙個名稱為input的目錄 4 刪除hdfs根目錄中的 input 目錄 在該檔案裡面可以隨意輸入一...