MR計算框架特點

2021-09-30 16:32:10 字數 792 閱讀 1738

1.資料劃分和計算任務排程:

系統自動將乙個作業(job)待處理的大資料劃分為很多個資料塊,每個資料塊對應於乙個計算任務(task),並自動 排程計算節點來處理相應的資料塊。作業和任務排程功能主要負責分配和排程計算節點(map節點或reduce節點),同時負責監控這些節點的執行狀態,並 負責map節點執行的同步控制。

2.資料/**互定位(資料本地化策略)

為了減少資料通訊,乙個基本原則是本地化資料處理,即乙個計算節點盡可能處理其本地磁碟上所分布儲存的資料,這實現了**向 資料的遷移(hadoop移動的是運算,而不是資料);當無法進行這種本地化資料處理時,再尋找其他可用節點並將資料從網路上傳送給該節點(資料向**遷移),但將盡可能從資料所在的本地機架上尋 找可用節點以減少通訊延遲。

3.系統優化

為了減少資料通訊開銷,中間結果資料進入reduce節點前會進行一定的合併處理(combiner);乙個reduce節點所處理的資料可能會來自多個 map節點,為了避免reduce計算階段發生資料相關性,map節點輸出的中間結果需使用一定的策略進行適當的劃分處理(分割槽策略),保證相關性資料傳送到同乙個 reduce節點;此外,系統還進行一些計算效能優化處理,如對最慢的計算任務採用多備份執行、選最快完成者作為結果(推測執行機制)。

4.出錯檢測和恢復:

以低端商用伺服器構成的大規模mapreduce計算集群中,節點硬體(主機、磁碟、記憶體等)出錯和軟體出錯是常態,因此 mapreduce需要能檢測並隔離出錯節點,並排程分配新的節點接管出錯節點的計算任務。同時,系統還將維護資料儲存的可靠性,用多備份冗餘儲存機制提 高資料儲存的可靠性,並能及時檢測和恢復出錯的資料。

MR計算模型二

重寫public void map object key,object value,context context throws ioexception,interruptedexception 方法 map函式主要用於資料的清洗和原始處理 map函式每執行一次,處理一條資料 map的輸入,key預...

thinkphp框架的特點

thinkphp的特點點如下 1 高階模型 可以輕鬆支援序列化字段 文字字段 唯讀字段 延遲寫入 樂觀鎖 資料分表等高階特性。2 檢視模型 輕鬆動態地建立資料庫檢視,多表查詢相對簡單。3 關聯模型 讓你以出乎意料的簡單 靈活的方式完成多表的關聯操作。4 模板引擎 系統內建了一款卓越的基於xml的編譯...

集合框架中子類特點

list 元素是有序的,元素可以重複,因為該集合體系有索引 1.arraylist 底層的資料結構是陣列結構。特點 查詢速度快,但是增刪相對較慢,執行緒不同步。2.linkedlist 底層資料採用的是鍊錶結構的。特點 增刪較快,查詢較慢。2.vector 底層的資料結構是陣列結構。特點 執行緒同步...