本文主要收錄spark學習和工作中思考的問題。
####1、當spark task failed,什麼情況下task重計算,什麼情況下stage重計算?
答:如果task失敗是因為shuffle output files lost,則dagscheduler會對stage重提交計算;如果不是因為shuffle file lost,則選擇resubmit task。這是因為shuffle output file lost涉及stage之間的失誤,需要上游重提交stage產生新的shuffle output檔案。
####2、引數spark.yarn.executor.memoryoverhead與引數spark.memory.offheap.size都表示堆外記憶體大小,有什麼區別?
答:作用不同。因為spark.yarn.executor.memoryoverhead表示executor自身jvm程序需要的記憶體開銷,spark.memory.offheap.size表示rdd計算執行和資料儲存使用的offheap(預設計算和儲存各佔50%,由引數spark.memory.storagefraction控制)。
####3、關於shuffle write、shuffle spill (memory)、shuffle spill (disk)概念有什麼區別?
shuffle spill跟shuffle write總體上來說不是同一型別的操作,shuffle spill表示executor記憶體不足以存放資料,從而spill到其他位置;shuffle write表示executor之間的資料傳遞大小。
前端知識自問自答
1.什麼是rfcs 並非所有的rfc文件都是網際網路標準,只有很少的rfc文件最後變成了網際網路標準。2.vue的雙向繫結的原理是什麼?vue.js是採用資料劫持結合發布者 訂閱者模式的方式,通過es5提供的object.defineproperty 方法來劫持 監視洛個屬性的setter,gett...
C語言自問自答
windows系統下,最好如何配置環境?notepad tdm gcc,powershell來進行!scanf函式的返回值,和不符合格式如何返回?1 include2 void main 3 輸入 1 2 3 返回1,2,3,3 輸入 1 a 3 返回1,1,0,1 其中,x為scanf的返回值,i...
Android學習 Service自問自答
什麼是service service是一種可以長時間執行在後台而不需要ui介面的應用元件。當應用切換到後台或者使用者開啟另外乙個應用,甚至應用元件被銷毀 activity關閉 service都能保持執行。但當程序被殺的時候,所有依賴於該程序的service都會停止執行。為什麼要用service se...