hdfs是分散儲存的
把每個大檔案分成小的,
每個小檔案分開了 所以要做乙個冗餘備份
快的大小可以配置dfs.blocksize 老版預設64m新版預設128m
分散到不同的伺服器 保證檔案不會丟失或損壞
namenode 是主管整個hdfs的,掌管檔案系統目錄樹,處理客戶端的請求
secondarynamenode本意只是分擔壓力的,算不得是namenode的備份。 只能算namenode的助理,翻不了身的那種。
datanode 儲存資料塊 實現真正讀寫。檔案的各個block管理。
hdfs 設計成一次寫入 多次讀取的,不支援檔案修改 但是支援新增。
基本上是設計用來資料分析的 即資料只進不出,
hdfs優點: 有多個副本 容錯性 可靠性更強,還有恢復機制
由於是分在多個機器上 所以hdfs選擇了移動計算,即把演算法下發到各個機器 讓它們計算,然後各機器把計算結果返回來。
適合大資料計算 gb tb級別資料。
一次性寫入 多次讀取 保證一致性。
hdfs的內部工作對客戶端保持透明, 客戶端請求訪問的hdfs都是通過namenode訪問的
hdffs的傳輸成功,要保證最小的傳輸成功量,這個是可設定的, 可能在傳輸過程中有節點出問題 檢測到之後就直接
namenode職責
預寫日誌操作
磁碟元資料映象檔案 合併了之前所有的操作日誌檔案
資料與寫操作日誌檔案: 儲存在磁碟中
內容就是所有的edits之和還有即將寫入的操作的資料。
元資料的checkpoint機制
間隔要麼是一百萬的資料 要麼是乙個小時。
hadoop的streaming學習小結
參考 hadoop實戰 1輸入輸出路徑寫的是資料夾的位址,這裡都是寫的hdfs的絕對路徑位址 2file指定的是檔案的絕對位址 4reducer 指定使用的reduce函式 usr bin env python import sys index int sys.argv 1 for line in ...
hadoop的hdfs使用小結
hdfs 檔案目錄如下 1建立目錄 bin目錄下 hdfs dfs mkdir p user lin 2查詢檔案系統目錄 hdfs dfs ls 3將本地檔案上傳到檔案目錄 bin hdfs dfs put readme.txt user lin 4統計單詞 bin hadoop jar share...
Hadoop效能優化點小結
最近一段時間看了許多hadoop效能優化相關的資料,於是花了點時間整理了一下,希望給正在苦於hadoop集群效能問題的博友們一點建議吧。1 hadoop在儲存有輸入資料的節點上執行map任務,可以獲得最佳效能,稱為 資料本地化優化 所以一般會設定最大分片的大小應該與塊大小相同,如果分片跨越2個塊的大...