spark基本常識(三) shuffle

2021-09-01 13:26:01 字數 697 閱讀 5033

什麼是shuffle,以及為什麼需要shuffle?

shuffle中文翻譯為洗牌,需要shuffle的原因是: 具有共同特徵的資料匯聚到乙個計算節點上進行計算

spark中shuffle的分類
主要分三種:

1、hashshuffle : 預設不排序,直接進行shuffle

2、sortshuffle :預設先進行排序。在shuffle

3、鎢絲(tungsten) shuffle : 在sortshuffle的基礎上對記憶體進行了優化

那麼在rdd運算元中那些運算元是shuffle運算元呢?
一般by,bykey型的運算元都要經過shuffle過程

如reducebykey, | groupbykey,

sortbykey, countbykey,

join(未分組資料), cogroup,leftouterjoin,

rightouterjoin, coalesce(引數為true時),

repartition, combinebykey,

aggregatebykey, groupby,

distinct, sortbykey,sortby,

countbykey, intersection(交集),subtract(差集)

ORACLE基本常識

個表空間只能屬於乙個資料庫 每個資料庫最少有乙個控制檔案 建議3個,分別放在不同的磁碟上 每個資料庫最少有乙個表空間 system表空間 建立system表空間的目的是盡量將目的相同的表存放在一起,以提高使用效率 每個資料庫最少有兩個聯機日誌檔案 乙個資料檔案只能屬於乙個表空間 乙個資料檔案一旦被加...

電腦基本常識

一.32位cpu中的32代表什麼?1.32代表cpu的位址線長度,32位處理器表示一次只能處理32位 4個位元組 而64位處理器一次能處理64位,即8個位元組的資料。2.如果我們將總長128位的指令分別按照如果我們將總長128位的指令分別按照16位 32位 64位為單位進行編輯的話 舊的16位處理器...

html基本常識

用div布局,css控制 編輯器用的是sublime 1.doctype標籤是一種標準通用標記語言的文件型別宣告,它的目的是要告訴標準通用標記 語言解析器,它應該使用什麼樣的文件型別定義 dtd 來解析文件。作用 宣告文件的解析型別 document.compatmode 避免瀏覽器的怪異模式。do...