shuffle快取,跳過stage

2021-10-18 22:56:29 字數 308 閱讀 4191

為什麼有時候 觸發多次action的時候,後邊的會比前邊的快。

比如 wordcount,第一次  collect的時候 6秒 第二次collect只需要3秒 為什麼????

因為,spark在shuffle真正觸發的時候,會把shuffle結果快取到磁碟(/tmp/spark**********/****mgr/********下),下次action的時候,shuffle之前的資料就不需要執行了,就會被skip掉,所以變快了。

那如果,tmp下的快取資料丟失了呢? spark會報錯,但是 他還會幫你執行出結果來,就是重新算一邊shuffle之前的過程。

跳過17 30,跳過瑞星定時掃瞄

由於公司的電腦裝了網路的瑞星,一到17 30就會開啟定時掃瞄,瑞星的設定又改不了,搞得很煩。怎麼才能讓討厭的定時掃瞄不出來呢?近日突然來了靈感,是不是把17 30跳過去,定時掃瞄就不出來了?於是在17 29的時候試了一把 time 17 31 果然瑞星沒有出來。既然這樣何不來個反定時 at 17 2...

洗牌演算法shuffle

對這個問題的研究始於一次在群裡看到朋友發的洗牌面試題。當時也不知道具體的解法如何,於是隨口回了一句 每次從剩下的數字中隨機乙個。過後找相關資料了解了下,洗牌演算法大致有3種,按發明時間先後順序如下 一 fisher yates shuffle 演算法思想就是從原始陣列中隨機抽取乙個新的數字到新陣列中...

shuffle過程詳解

這張是官方對shuffle過程的描述。但我可以肯定的是,單從這張圖你基本不可能明白shuffle的過程,因為它與事實相差挺多,細節也是錯亂的。後面我會具體描述shuffle的事實情況,所以這裡你只要清楚shuffle的大致範圍就成 怎樣把map task的輸出結果有效地傳送到reduce端。也可以這...