1、yarn監控介面 (1) 執行失敗的應用程式
監控 yarn資源管理中總執行失敗的應用程式數量 縱軸表示應用程式數量,單位個 橫軸表示時間,單位分鐘 (2)已提交的應用程式
監控 yarn資源管理中已提交的應用程式數量 縱軸表示應用程式數量,單位個 橫軸表示時間,單位分鐘
(3)正在執行的應用程式
監控 yarn資源管理中正在執行的應用程式數量 縱軸表示應用程式數量,單位個 橫軸表示時間,單位分鐘 (4) 等待執行的應用程式
監控 yarn資源管理中等待執行的應用程式數量 縱軸表示應用程式數量,單位個 橫軸表示時間,單位分鐘
(5)已完成的應用程式
監控 yarn資源管理中已完成的應用程式數量 縱軸表示應用程式數量,單位個 橫軸表示時間,單位分鐘 (6)被kill的應用程式
監控 yarn資源管理中被殺死的應用程式數量 縱軸表示應用程式數量,單位個 橫軸表示時間,單位分鐘 2、spark監控介面 注意:(spark 執行任務後才有監控資料) (1) 最大可使用記憶體
監控 spark 集群中最大可使用的記憶體 縱軸表示記憶體容量,單位mb 橫軸表示時間,單位分鐘 (2)已使用的記憶體
監控 spark 集群中已經使用的記憶體 縱軸表示記憶體容量,單位mb 橫軸表示時間,單位分鐘 (3)剩餘記憶體
監控 spark 集群中剩餘的記憶體 縱軸表示記憶體容量,單位(mb) 橫軸表示時間,單位分鐘 (4)spark中任務數量
監控 spark 集群中任務數量 縱軸表示記憶體容量,單位mb 橫軸表示時間,單位分鐘 (5)spark中正在執行的任務數量
監控 spark中正在執行的任務數量 縱軸表示記憶體容量,單位mb 橫軸表示時間,單位分鐘 (6)正在執行的stage數量
監控 spark集群中正在執行的stage數量 縱軸表示stage數量,單位個 橫軸表示時間,單位分鐘
(7)失敗的stage數量
監控 spark集群中執行失敗的stage數量 縱軸表示stage數量,單位個 橫軸表示時間,單位分鐘 (8)準備就緒的stage數量
監控 spark集群中準備就緒的stage數量 縱軸表示stage數量,單位個 橫軸表示時間,單位分鐘 備註: (橫軸的時間表示採集時間,一般是1分鐘一次)
大資料處理
大資料處理的流程主要包括以下四個環節 採集 匯入 預處理 統計 分析 挖掘,下面針對這四環節進行簡單闡述。大資料處理之一 採集 在大資料的採集過程中,其主要特點和挑戰是併發數高,因為同時有可能會有成千上萬的使用者來進行訪問和操作,比如火車票售票 和 它們併發的訪問量在峰值時達到上百萬,所以需要在採集...
大資料處理隨筆
1.mssql當資料庫資料超過1000萬的時候超時是正常的,所以當表資料到1000萬時候注意delete 2.今天遇到資料庫時間格式2014021000 當然是int型別哦 3.聯合索引使用 開始時間與結束時間這樣一起查詢的要建成索引 4.訂閱資料庫,只可以查詢操作,這樣的話可以在這個表上面建立索引...
大資料處理方案
假設目前有一千萬個記錄 這些查詢串的重複度比較高,雖然總數是1千萬,但如果除去重複後,不超過3百萬個。乙個查詢串的重複度越高,說明查詢它的使用者越多,也就是越熱門。請你統計最熱門的10個查詢串,要求使用的記憶體不能超過1g。2 32為40億多,所以給定乙個數可能在,也可能不在其中 這裡我們把40億個...