Hadoop筆記小結

2021-09-12 09:20:10 字數 821 閱讀 1840

hdfs是分散儲存的

把每個大檔案分成小的,

每個小檔案分開了 所以要做乙個冗餘備份

快的大小可以配置dfs.blocksize 老版預設64m新版預設128m

分散到不同的伺服器 保證檔案不會丟失或損壞

namenode 是主管整個hdfs的,掌管檔案系統目錄樹,處理客戶端的請求

secondarynamenode本意只是分擔壓力的,算不得是namenode的備份。 只能算namenode的助理,翻不了身的那種。

datanode 儲存資料塊 實現真正讀寫。檔案的各個block管理。

hdfs 設計成一次寫入 多次讀取的,不支援檔案修改 但是支援新增。

基本上是設計用來資料分析的 即資料只進不出,

hdfs優點: 有多個副本 容錯性 可靠性更強,還有恢復機制

由於是分在多個機器上 所以hdfs選擇了移動計算,即把演算法下發到各個機器 讓它們計算,然後各機器把計算結果返回來。

適合大資料計算 gb tb級別資料。

一次性寫入 多次讀取 保證一致性。

hdfs的內部工作對客戶端保持透明, 客戶端請求訪問的hdfs都是通過namenode訪問的

hdffs的傳輸成功,要保證最小的傳輸成功量,這個是可設定的, 可能在傳輸過程中有節點出問題 檢測到之後就直接

namenode職責

預寫日誌操作

磁碟元資料映象檔案 合併了之前所有的操作日誌檔案

資料與寫操作日誌檔案: 儲存在磁碟中

內容就是所有的edits之和還有即將寫入的操作的資料。

元資料的checkpoint機制

間隔要麼是一百萬的資料 要麼是乙個小時。

hadoop的streaming學習小結

參考 hadoop實戰 1輸入輸出路徑寫的是資料夾的位址,這裡都是寫的hdfs的絕對路徑位址 2file指定的是檔案的絕對位址 4reducer 指定使用的reduce函式 usr bin env python import sys index int sys.argv 1 for line in ...

hadoop的hdfs使用小結

hdfs 檔案目錄如下 1建立目錄 bin目錄下 hdfs dfs mkdir p user lin 2查詢檔案系統目錄 hdfs dfs ls 3將本地檔案上傳到檔案目錄 bin hdfs dfs put readme.txt user lin 4統計單詞 bin hadoop jar share...

Hadoop效能優化點小結

最近一段時間看了許多hadoop效能優化相關的資料,於是花了點時間整理了一下,希望給正在苦於hadoop集群效能問題的博友們一點建議吧。1 hadoop在儲存有輸入資料的節點上執行map任務,可以獲得最佳效能,稱為 資料本地化優化 所以一般會設定最大分片的大小應該與塊大小相同,如果分片跨越2個塊的大...