1、流式資料訪問:一次寫入,多次讀取是最高效的訪問模式。資料集通常由資料來源生成或從資料來源複製而來,每次分析都在該資料集上進行
2、資料塊:檔案的獨立儲存單元,預設64mb;目的是為了最小化定址開銷;塊的元資料存在namenode的記憶體中;hdfs中乙個小於塊大小的檔案不會佔據整個塊的空間
3、namenode的容錯為什麼重要,容錯的方法有哪些?
4、讀檔案的流程:
5、寫檔案的流程:
6、寫檔案中資料佇列、管線、副本布局的問題
7、distcp並行複製
8、頻寬:資料中心中最稀缺的資源!
HDFS學習筆記
3 hdfs儲存原理 主節點 資料目錄 元資料 服務 從節點 具體完成資料的儲存任務 hdfs 相容廉價的硬體裝置,實現流資料讀寫,支援大資料集,支援簡單的檔案模型,強大的跨平台相容性 hdfs侷限性 不適合低延遲資料訪問,無法高效儲存大量小檔案,不支援多使用者寫入以及任意修改檔案。1 為了分攤磁碟...
HDFS學習筆記
hdfs學習筆記 hdfs,是hadoop distributed file system的簡稱,是hadoop抽象檔案系統的一種實現。hdfs的檔案分布在集群機器上,同時提供副本進行容錯及可靠性保證。例如客戶端寫入讀取檔案的直接操作都是分布在集群各個機器上的,沒有單點效能壓力。什麼是hdfs 1....
hadoop學習筆記(HDFS)
hdfs的設計基礎與目標 1 硬體錯誤是常態,因此需要冗餘。2 為大資料而生,流式讀寫,批量讀取而非隨機讀寫。擅長資料分析而不是事務處理。3 大規模資料集。4 一次寫多次讀邏輯設計,即一旦寫入,只能讀,不能修改。5 程式才用 資料就近 原則分配節點執行。hdfs的可靠性 冗餘副本策略 機架策略 心跳...