shuffle乙個簡單的過程敘述性說明

2021-09-07 02:21:14 字數 585 閱讀 3746

shuffle它是在map和reduce過程之間。我們看看在這個過程中的步驟,了解在這個問題上不深,有可能是乙個錯誤。忘記修正

1. map

map出口key,value,裡的context.write(key, value);。這個步驟是將key,value寫到記憶體buffer裡了,這個記憶體的預設大小是100m

2. sort

當資料大小超過buffer容量的80%(預設)時。會將這部分資料進行排序,依照partition和key值進行排序,partition代表的是會分到哪個reducer裡

3. 溢寫

排好序之後將資料寫到磁碟上

4. merge

由於非常多時候不是一次溢寫就能夠了,可能會經過多次溢寫。所以會在磁碟上產生多個檔案,這個時候就須要將檔案進行合併。

5. copy

通過http的方式將上乙個步驟中的磁碟上的資料copy到相應的reduce端

6. mergesort

每乙個map的輸出端的檔案時依照key排好序的,這個地方是對多個map端的檔案依照key進行排序,邊merge邊sort

7. reduce

更具體的內容見這篇博文

shuffle過程的簡單描述

shuffle是處在map和reduce之間的過程。我們看一下這個過程都有哪些步驟,對這個問題了解的並不深,可能有錯誤,忘指正 1.map map輸出key,value,對應 裡的context.write key,value 這個步驟是將key,value寫到記憶體buffer裡了,這個記憶體的預...

Shuffle過程的簡單介紹

shuffle是連線map和reduce的橋梁 shuffle分為map端的shuffle和reduce端的shuffle map端的shuffle 1輸入資料和執行任務 分片後分配map任務,每個任務分配100m快取 2寫入快取 在溢寫過程中 3溢寫溢寫比達到0.8後啟動溢寫程序,把快取寫入到磁碟...

乙個簡單的儲存過程

set quoted identifier off goset ansi nulls on goalter procedure list gz p zgh int null as begin if p zgh is null begin print 請輸入乙個職工號 return end else ...