2021-02-17 早晨發現釘釘群在07:00發出告警:
flow data_warehouse status is running, totally 164 unsuccessful job, primarily because:
dwa_vvip_page_user_trail_daily status:running
dwa_openplatform_xmfm_vip_listeninfo_daily status:running
dwa_vvip_marketing_special_uid_growth_channel_daily status:running
dwa_vvip_related_dau_distribution_daily status:running
dwa_spot_31_vvip_rebuy_daily status:running
al_trail_operation_dashboard_year status:running
dwa_vip_group_center_uv_daily status:running
dwa_vvip_msg_mail_task_6 status:running
dwa_vvip_msg_mail_task_3 status:running
dwa_vvip_mngr_report_daily status:running
dwa_trail_index_new_daily status:running
dwa_trail_index_trail_weekly status:running
dwa_vvip_marketing_special_uid_code_daily status:running
dwa_channel_order_path_new_daily status:running
dwa_xiaoshuo_page_user_trail_daily status:running
當天早晨的04:03由釘釘群報出15條告警訊息,檢視這些告警訊息發現都是記憶體溢位。
(1)登入azkaban,根據釘釘告警提到的job名稱依次檢查相關的日誌,發現有大量的記憶體溢位的記錄。
(2)登入yarn 的rm主頁,發現有大量的nodes下線。
(3)登入上述job作業執行所在的集群主機,分別檢查下線node的軟體環境和硬體環境:軟體環境方面的nodemanager程序仍然存活;檢查硬體環境的記憶體發現,yarn中顯示下線的nodemanager節點的可用記憶體已經不足(剩餘100~300mb)。
(4)繼續檢查下線nodemanager的日誌,發現有多條記錄顯示當前節點已被加入黑名單。
(5)被加入黑名單會導致當前節點不可用,而集群nodemanager節點的減少進一步導致了離線作業的可用資源繼續減少,惡性迴圈的結果導致上百個節點接二連三被拖垮。
爆出故障後,第一時間分析原因並果斷採取措施:重啟各nodemanager。從故障發出到恢復集群用了半小時,當天上午的離線作業未明顯延遲。
(1)及時關注釘釘**出的數倉作業failed告警訊息;
(2)可以考慮對脫機數倉作業的資源需求做適當的限制,或者為數倉作業所在的計算集群做容量公升級(擴容)。
spark脫機數倉優化
當業務需求只取dataframe的某幾列時可以使用select方法來獲取其中幾列,dataframe.select 欄位1 欄位2 欄位3 方法返回值為dataframe dataframe.drop colname 刪除dataframe總的某列 dataframe.withcolumn 新增列名...
脫機數倉與實時數倉案例
資料倉儲是乙個面向主題的 subject oriented 整合的 integrate 相對穩定的 non volatile 反映歷史變化 time variant 的資料集合,用於支援管理決策。資料倉儲是伴隨著企業資訊化發展起來的,在企業資訊化的過程中,隨著資訊化工具的公升級和新工具的應用,資料量...
實時數倉與脫機數倉總結 一
精選30 雲產品,助力企業輕鬆上雲!主要內容 數倉基本概念 數倉架構演變 實時數倉和脫機數倉的區別 數倉基本概念 首先說一下資料倉儲的概念,以下簡稱數倉。數倉的發展 數倉有兩個環節 乙個是數倉的建設 另乙個數倉的應用。早期的數倉 傳統數倉 目前 數倉的架構演變 脫機數倉和實時數倉 接下來我會分別介紹...