1 代表job頁面,在裡面可以看到當前應用分析出來的所有任務,以及所有的excutors中action的執行時間。
頁可以分為兩部分,一部分是event timeline,另一部分是進行中和完成的job任務。
第一部分event timeline展開後,可以看到executor建立的時間點,以及某個action觸發的運算元任務,執行的時間。通過這個時間圖,可以快速的發現應用的執行瓶頸,觸發了多少個action。
第二部分的圖表,顯示了觸發action的job名字,它通常是某個count,collect等操作
2 代表stage頁面,在裡面可以看到應用的所有stage,stage是按照寬依賴來區分的,因此粒度上要比job更細一些
作血統圖,標記了每個rdd從建立到應用的乙個流程圖,也是我們進行分析和調優很重要的內容
3 代表storage頁面,我們所做的cache persist等操作,都會在這裡看到,可以看出來應用目前使用了多少快取
4 代表environment頁面,裡面展示了當前spark所依賴的環境,比如jdk,lib等等
5 代表executors頁面,這裡可以看到執行者申請使用的記憶體以及shuffle中input和output等資料
這個頁面比較常用了,一方面通過它可以看出來每個excutor是否發生了資料傾斜,另一方面可以具體分析目前的應用是否產生了大量的shuffle,是否可以通過資料的本地性或者減小資料的傳輸來減少shuffle的資料量。
7 是job的主頁面。
spark簡單快速學習及開啟UI介面 1
1.遠端集群測試 import org.apache.spark.import scala.math.random 利用spark進行圓周率的計算 created by 汪本成 on 2016 6 10.object test reduce 彙總累加落入的圓中的次數 count n是概率,count...
Spark排程解析
目錄 spark排程解析 1.相關術語 2.作業 階段 任務之間的關係 如何劃分作業 job 如何劃分階段 stage 如何劃分任務 task 總結 3.spark執行流程 參考文獻 driver通常用sparkcontext代表driver cluster manager 指的是在集群上獲取資源的...
更新UI介面
在同乙個ui介面中可能包含有 文字 文字框 進度條等多種控制項,如何在保持分布比例的基礎上將各元素排布的僅僅有條,這裡主要使用到grid布局。grid布局是wpf中一種非常常用的 布局,它可以將整個介面劃分為規則的幾行幾列,也可以單獨將其中一行劃分為需要的列數。介面中使用的控制項可以單獨位於乙個網格...